論文閱讀分析:Large Language Models for Explainable Threat Intelligence
Large Language Models for Explainable Threat Intelligence
作者:Tiago Dinis、Miguel Correia、Roger Tavares
年份:2025
來源:arXiv / 後續收錄於 IEEE 相關會議出版頁面
論文連結:https://arxiv.org/abs/2511.05406
PDF:https://arxiv.org/pdf/2511.05406v1.pdf
DOI:10.48550/arXiv.2511.05406
一、研究問題與動機
這篇論文要處理的核心問題,是如何把大型語言模型(LLM)真正變成可用於網路威脅情報(CTI)的問答與分析系統,同時降低黑箱風險。作者指出,傳統 LLM 雖然擅長處理非結構化文字,但面對即時性高、專業詞彙密集、證據來源分散的 CTI 場景時,常見限制包括:知識截止、幻覺、以及無法清楚說明答案是從哪些證據推得。為此,論文提出 RAGRecon,把檢索增強生成(RAG)與知識圖譜(Knowledge Graph, KG)結合,讓系統不只回答問題,還能把回答背後的概念關聯圖視覺化,作為可解釋威脅情報的輸出。
作者設定的應用對象主要是 SOC 分析師與 CTI 人員。實務上,他們需要快速閱讀大量 PDF 威脅報告、判斷威脅脈絡、理解漏洞與攻擊關聯,並從非結構化內容中提取對調查有用的上下文。RAGRecon 的目標,就是在不重新訓練專用模型的前提下,利用現成 LLM、向量檢索與圖譜表示,提供可追索、可視覺化、可互動查詢的 CTI 輔助能力。
二、論文提出的方法:RAGRecon
(一)整體架構
RAGRecon 的流程可以整理為下列五個步驟:
- 使用者輸入自然語言問題。
- 系統到向量資料庫中搜尋與問題語意最接近的文件片段。
- 把檢索到的上下文提供給 LLM,生成文字答案。
- 再用另一個圖譜生成提示,要求 LLM 從相同上下文中抽取實體與關係。
- 把抽出的三元組轉成知識圖譜,與文字答案一起回傳給使用者。
這個設計的關鍵不是單純做 RAG 問答,而是把「回答」與「可解釋表示」拆成雙輸出結構。也就是說,同一批檢索到的證據,一方面餵給 LLM 形成回答,另一方面要求模型把上下文中的主體、關聯、客體轉成結構化關係,最後以 KG 視覺化,讓分析師看到系統如何在上下文中建立威脅知識連結。
(二)資料匯入與向量化
系統資料來源是使用者提供的 PDF 威脅報告。作者使用 LangChain 的 PyPDFDirectoryLoader 載入所有 PDF,並將每一頁視為文件物件。接著用 RecursiveCharacterTextSplitter 進行文字切塊,主要設定如下:
- Chunk Size:1000 個字元
- Chunk Overlap:100 個字元
- 目的:避免長文超出模型上下文視窗,並維持相鄰片段語意連續性
每個 chunk 都會被指派唯一識別碼,格式為:
filename_p<page_number>_c<chunk_index_on_that_page>
例如某份 report.pdf 第 5 頁的第 3 個 chunk,可表示為:
report.pdf_p4_c2
向量嵌入部分,作者使用 HuggingFace 的 sentence-transformers/all-MiniLM-L6-v2 模型生成文字向量,並把向量與中繼資料存入 ChromaDB。這代表檢索階段採用的是密集檢索(dense retrieval),不是單純關鍵字比對,而是以語意相似度找出最接近問題的文件片段。
(三)查詢與回答生成
當使用者送出問題後,系統先把問題轉成嵌入向量,再到 ChromaDB 中做相似度搜尋。論文實作中使用 top-k = 6,也就是取最相近的 6 個文本片段,將其串接為最終上下文。此處屬於 RAG-Sequence 形式:先檢索一次,再以固定上下文生成完整答案,而非在逐 token 生成過程中動態重檢索。
LLM 接著在「使用者問題 + 檢索上下文」的提示下輸出回答。作者特別強調系統是 model-agnostic,可切換不同 LLM 供應商模型,且保留對話歷史,使後續追問仍能維持一致脈絡。
(四)知識圖譜生成
RAGRecon 的第二個核心模組,是針對同一批檢索內容建立知識圖譜。作者設計專門提示詞,要求 LLM 輸出如下形式的結構化關係:
{"subject": "A", "relationship": "B", "object": "C"}
多筆關係組合後,即可形成實體—關係—實體的圖結構。系統再用 NetworkX 與 Pyvis 產生互動式 HTML 圖譜,供使用者在 GUI 中查看。這個圖譜不是外部知識庫預先存在的 CTI ontology,而是由 RAG 檢索出的上下文在查詢當下動態抽取得到,因此可視為針對單次問題的臨時解釋圖。
三、理論基礎與文中公式
(一)Faithfulness
作者採用 Faithfulness 衡量答案是否真正被上下文支持,也就是回答是否忠於檢索到的證據。論文給出的計算方式為:
Faithfulness = Number of Statements Supported by Context / Total Number of Statements
其評估步驟為:
- 先由 LLM 把 RAG 產生的答案切成多個陳述句。
- 再由 LLM 逐句判斷是否能被檢索上下文支持,輸出 Yes/No。
- 統計 Yes 與 No 的數量。
- 以 Yes 占總陳述數的比例作為 Faithfulness 分數。
如果此值越高,表示幻覺越少,回答越能回扣原始 CTI 文件內容。
(二)Context Relevance
作者也衡量檢索上下文中到底有多少內容與問題真正相關,公式如下:
Context Relevance = Number of Relevant Sentences / Total Number of Sentences in Context
其步驟是:
- 由 LLM 從檢索上下文抽出與問題相關的句子。
- 統計相關句數。
- 統計上下文總句數。
- 取兩者比值。
這個指標代表檢索效率。若相關比例低,表示系統雖然可能答對,但餵了太多不必要內容,會增加 token 成本與模型干擾。
四、實作細節
- 框架:LangChain
- 向量資料庫:ChromaDB
- 嵌入模型:sentence-transformers/all-MiniLM-L6-v2
- 圖譜處理:NetworkX、Pyvis
- 介面:CLI 與 Flask GUI 雙版本
- 檢索策略:語意相似度檢索,固定 top-k = 6
- 文件型態:PDF 威脅報告
作者另外提到,系統的 ingestion 與 retrieval 在相同資料集下是確定性的(deterministic):相同 PDF、相同切塊、相同向量化流程,會產生相同的 chunks 與相同檢索上下文。真正可能波動的是 LLM 生成階段與 LLM 自我評估階段,因為語句表達與語意判斷可能在不同輪次略有差異。
五、資料集建構方式
為了驗證系統,作者自行建立兩組資料集:
- Conventional CTI Dataset:來自 24 份一般網路安全/威脅情報 PDF 報告。
- Blockchain CTI Dataset:來自 28 份區塊鏈安全相關 PDF 報告。
每個資料集都包含 50 個問題。建構流程如下:
- 先用 Gemini 2.5 Flash 為每份文件生成候選問題池。
- 人工挑選其中 50 題,作為最終問答集合。
- 再用同一模型結合來源文件生成參考答案。
- 最後由人工審核問題與參考答案,移除不準確或有幻覺的內容。
論文舉的例子包括:一般 CTI 資料集裡有「哪個勒索軟體集團在 2023 年 1 月攻擊英國 Royal Mail?」;區塊鏈資料集中則有「請解釋 permissionless distributed ledger 脈絡中的 51% attack」。這表示作者不是測抽象語言能力,而是測系統能不能從特定 CTI 報告中抓到具體事實與概念。
六、評測模型與實驗設計
作者比較了 7 個不同模型:
- Google Gemini 2.0 Flash Lite
- Google Gemini 2.0 Flash
- OpenAI GPT-4o Mini
- OpenAI GPT-4o
- Anthropic Claude 3.5 Haiku
- Anthropic Claude 3.7 Sonnet
- Groq Deepseek-R1-Distill-Llama-70B
作者在兩組資料集上進行多輪測試,並使用 Ren 等人提出的 LLM self-evaluation 方法,讓另一個 LLM 來判斷 RAGRecon 答案與參考答案之間的語意一致程度。同時,作者沒有完全依賴自動評分,而是又做了人工檢查,以確認自動評估是否可靠。
七、主要實驗結果
(一)答案與參考答案匹配率
論文摘要指出,最佳組合下,RAGRecon 生成的答案與參考答案匹配率超過 91%。這個結果說明,在限定資料來源、限定問題集合、限定 RAG 檢索上下文的情況下,系統可以相當穩定地回答 CTI 問題。
(二)Faithfulness 表現
Faithfulness 幾乎在所有輪次都高於 0.8 / 1.0。作者把這解讀為:模型大多數回答都能被檢索到的 CTI 上下文支持,因此幻覺率相對低。對 CTI 場景來說,這個指標特別重要,因為分析師不能只要「像真的」回答,而是要能回溯到證據。
(三)Context Relevance 表現
作者報告平均只有約 8% 的檢索內容被真正拿來支撐答案。這代表兩件事:
- 系統目前仍會取回不少非必要上下文;
- 儘管如此,模型仍能在其中找到足夠的關鍵證據完成回答。
此結果顯示檢索精確度仍有優化空間,例如更好的 reranking、query expansion、或結合結構化過濾條件。
(四)人工驗證 LLM 自評的一致性
作者人工審查了 2,050 筆 LLM 自評決策。人工驗證後,不同模型在兩組資料集上的「正確判斷率」大致落在 90%~97% 區間。文中表格列出的代表數值包括:
- 傳統 CTI 資料集:約 92.00%~94.67%
- 區塊鏈 CTI 資料集:約 91.33%~97.33%
這說明作者不是只展示自動評分結果,而是額外檢驗了「評分器本身」的可信度。從 CTI pipeline 的觀點來看,這一步很重要,因為若評估器判斷本身不穩,後續就難以比較不同模型或不同檢索設計。
八、作者的分析與限制
(一)可重現性
作者指出資料匯入與檢索流程具可重現性;同一查詢在同一資料集上會找到相同上下文。這讓系統分析結果能較容易被審計,也方便做 benchmark。
(二)生成與自評仍有隨機波動
雖然檢索上下文不變,但不同測試輪次的答案措辭與自評結果仍可能有差異。作者提出兩種原因:
- 自評 LLM 偶爾會錯判答案與參考答案是否語意等價;
- 回答 LLM 有時會忽略已經存在於上下文中的部分關鍵資訊。
(三)小中型模型在 KG 格式化上較不穩
作者在結論中特別提到,一些參數規模至多 20B 的模型,在處理知識圖譜輸出時可靠性較不一致,主要問題是格式錯誤。也就是說,雖然模型可能理解了上下文,但無法穩定輸出符合預期結構的 JSON / 關係資料,進而影響 KG 建構。對需要圖譜抽取或 STIX/ATT&CK 結構化輸出的 CTI 自動化場景而言,這是一個很實際的工程限制。
九、對 CTI 與 SOC 工作流程的意義
從本文設計可看出幾個對 CTI 實務特別重要的技術方向:
- 從非結構化報告到可檢索知識:先向量化 PDF 報告,再將問題映射到證據片段。
- 從自然語言回答到可解釋表示:不只給結論,還產生關係圖,降低黑箱性。
- 從單輪問答到互動式調查:CLI/GUI 與對話歷史設計,適合分析師連續追問。
- 從通用模型到領域化使用:不重訓模型,而是透過 CTI 文件、RAG 與圖譜提示詞實現落地。
若把這篇論文放到近年的 CTI + LLM 脈絡中,它屬於「可解釋 RAG 型 CTI 助理」路線:不是專注於 ATT&CK technique 抽取、不是專注於 threat attribution 分類,而是聚焦在如何讓 CTI 問答結果可視化、可追索、可審閱。
十、重點閱讀筆記整理
- 論文提出的 RAGRecon,把 CTI 問答與 KG 解釋綁在一起,形成雙輸出架構。
- 資料來源是 PDF 威脅報告,切塊大小 1000 字元、重疊 100 字元。
- 嵌入模型使用
all-MiniLM-L6-v2,向量儲存使用 ChromaDB。 - 查詢時固定取 top-k = 6 個 chunk,屬於 RAG-Sequence。
- KG 由 LLM 依據同一批檢索上下文抽取 subject-relation-object 三元組後建出。
- 評估指標包含 Faithfulness 與 Context Relevance,並明確給出計算流程。
- 兩組自建資料集分別來自 24 份一般 CTI 報告與 28 份區塊鏈 CTI 報告,各 50 題。
- 最佳模型/組合下,答案與參考答案匹配率超過 91%。
- Faithfulness 大多超過 0.8,Context Relevance 平均約 8%。
- 作者另外人工驗證 2,050 筆 LLM 自評決策,驗證自動評估大致可用。
- 知識圖譜輸出最主要的不穩定點來自小中型模型的格式化能力,而不是單純檢索失敗。
十一、結論
這篇論文的技術貢獻在於,作者不把 RAG 視為單純的答案補強工具,而是進一步把檢索證據轉成可視化知識圖譜,讓 CTI 問答具有更高的可解釋性。整體方法在實驗中顯示出不錯的匹配率與 faithfulness,並透過人工驗證補強了 LLM 自評流程的可信度。其限制則在於檢索上下文仍有冗餘、KG 抽取對模型格式穩定性敏感,且資料集規模仍偏小。即便如此,這篇工作已經相當清楚地展示出:在 CTI 場景中,RAG、LLM 與知識圖譜可以被整合成一套兼顧回答、證據與解釋的分析流程。
Disclaimer:本文內容依據論文 Large Language Models for Explainable Threat Intelligence 由AI進行整理與技術解讀,僅供學術研究、教育訓練與資安情資分析參考,不構成任何產品保證、部署建議或攻防操作指引。實際應用仍需配合組織資料治理、模型驗證、法規遵循與人工審查。
