論文閱讀分析:Large Language Models for Explainable Threat Intelligence

Large Language Models for Explainable Threat Intelligence

作者:Tiago Dinis、Miguel Correia、Roger Tavares
年份:2025
來源:arXiv / 後續收錄於 IEEE 相關會議出版頁面
論文連結:https://arxiv.org/abs/2511.05406
PDF:https://arxiv.org/pdf/2511.05406v1.pdf
DOI:10.48550/arXiv.2511.05406


一、研究問題與動機

這篇論文要處理的核心問題,是如何把大型語言模型(LLM)真正變成可用於網路威脅情報(CTI)的問答與分析系統,同時降低黑箱風險。作者指出,傳統 LLM 雖然擅長處理非結構化文字,但面對即時性高、專業詞彙密集、證據來源分散的 CTI 場景時,常見限制包括:知識截止、幻覺、以及無法清楚說明答案是從哪些證據推得。為此,論文提出 RAGRecon,把檢索增強生成(RAG)與知識圖譜(Knowledge Graph, KG)結合,讓系統不只回答問題,還能把回答背後的概念關聯圖視覺化,作為可解釋威脅情報的輸出。

作者設定的應用對象主要是 SOC 分析師與 CTI 人員。實務上,他們需要快速閱讀大量 PDF 威脅報告、判斷威脅脈絡、理解漏洞與攻擊關聯,並從非結構化內容中提取對調查有用的上下文。RAGRecon 的目標,就是在不重新訓練專用模型的前提下,利用現成 LLM、向量檢索與圖譜表示,提供可追索、可視覺化、可互動查詢的 CTI 輔助能力。

二、論文提出的方法:RAGRecon

(一)整體架構

RAGRecon 的流程可以整理為下列五個步驟:

  1. 使用者輸入自然語言問題。
  2. 系統到向量資料庫中搜尋與問題語意最接近的文件片段。
  3. 把檢索到的上下文提供給 LLM,生成文字答案。
  4. 再用另一個圖譜生成提示,要求 LLM 從相同上下文中抽取實體與關係。
  5. 把抽出的三元組轉成知識圖譜,與文字答案一起回傳給使用者。

這個設計的關鍵不是單純做 RAG 問答,而是把「回答」與「可解釋表示」拆成雙輸出結構。也就是說,同一批檢索到的證據,一方面餵給 LLM 形成回答,另一方面要求模型把上下文中的主體、關聯、客體轉成結構化關係,最後以 KG 視覺化,讓分析師看到系統如何在上下文中建立威脅知識連結。

(二)資料匯入與向量化

系統資料來源是使用者提供的 PDF 威脅報告。作者使用 LangChain 的 PyPDFDirectoryLoader 載入所有 PDF,並將每一頁視為文件物件。接著用 RecursiveCharacterTextSplitter 進行文字切塊,主要設定如下:

  • Chunk Size:1000 個字元
  • Chunk Overlap:100 個字元
  • 目的:避免長文超出模型上下文視窗,並維持相鄰片段語意連續性

每個 chunk 都會被指派唯一識別碼,格式為:

filename_p<page_number>_c<chunk_index_on_that_page>

例如某份 report.pdf 第 5 頁的第 3 個 chunk,可表示為:

report.pdf_p4_c2

向量嵌入部分,作者使用 HuggingFace 的 sentence-transformers/all-MiniLM-L6-v2 模型生成文字向量,並把向量與中繼資料存入 ChromaDB。這代表檢索階段採用的是密集檢索(dense retrieval),不是單純關鍵字比對,而是以語意相似度找出最接近問題的文件片段。

(三)查詢與回答生成

當使用者送出問題後,系統先把問題轉成嵌入向量,再到 ChromaDB 中做相似度搜尋。論文實作中使用 top-k = 6,也就是取最相近的 6 個文本片段,將其串接為最終上下文。此處屬於 RAG-Sequence 形式:先檢索一次,再以固定上下文生成完整答案,而非在逐 token 生成過程中動態重檢索。

LLM 接著在「使用者問題 + 檢索上下文」的提示下輸出回答。作者特別強調系統是 model-agnostic,可切換不同 LLM 供應商模型,且保留對話歷史,使後續追問仍能維持一致脈絡。

(四)知識圖譜生成

RAGRecon 的第二個核心模組,是針對同一批檢索內容建立知識圖譜。作者設計專門提示詞,要求 LLM 輸出如下形式的結構化關係:

{"subject": "A", "relationship": "B", "object": "C"}

多筆關係組合後,即可形成實體—關係—實體的圖結構。系統再用 NetworkX 與 Pyvis 產生互動式 HTML 圖譜,供使用者在 GUI 中查看。這個圖譜不是外部知識庫預先存在的 CTI ontology,而是由 RAG 檢索出的上下文在查詢當下動態抽取得到,因此可視為針對單次問題的臨時解釋圖

三、理論基礎與文中公式

(一)Faithfulness

作者採用 Faithfulness 衡量答案是否真正被上下文支持,也就是回答是否忠於檢索到的證據。論文給出的計算方式為:

Faithfulness = Number of Statements Supported by Context / Total Number of Statements

其評估步驟為:

  1. 先由 LLM 把 RAG 產生的答案切成多個陳述句。
  2. 再由 LLM 逐句判斷是否能被檢索上下文支持,輸出 Yes/No。
  3. 統計 Yes 與 No 的數量。
  4. 以 Yes 占總陳述數的比例作為 Faithfulness 分數。

如果此值越高,表示幻覺越少,回答越能回扣原始 CTI 文件內容。

(二)Context Relevance

作者也衡量檢索上下文中到底有多少內容與問題真正相關,公式如下:

Context Relevance = Number of Relevant Sentences / Total Number of Sentences in Context

其步驟是:

  1. 由 LLM 從檢索上下文抽出與問題相關的句子。
  2. 統計相關句數。
  3. 統計上下文總句數。
  4. 取兩者比值。

這個指標代表檢索效率。若相關比例低,表示系統雖然可能答對,但餵了太多不必要內容,會增加 token 成本與模型干擾。

四、實作細節

  • 框架:LangChain
  • 向量資料庫:ChromaDB
  • 嵌入模型:sentence-transformers/all-MiniLM-L6-v2
  • 圖譜處理:NetworkX、Pyvis
  • 介面:CLI 與 Flask GUI 雙版本
  • 檢索策略:語意相似度檢索,固定 top-k = 6
  • 文件型態:PDF 威脅報告

作者另外提到,系統的 ingestion 與 retrieval 在相同資料集下是確定性的(deterministic):相同 PDF、相同切塊、相同向量化流程,會產生相同的 chunks 與相同檢索上下文。真正可能波動的是 LLM 生成階段與 LLM 自我評估階段,因為語句表達與語意判斷可能在不同輪次略有差異。

五、資料集建構方式

為了驗證系統,作者自行建立兩組資料集:

  1. Conventional CTI Dataset:來自 24 份一般網路安全/威脅情報 PDF 報告。
  2. Blockchain CTI Dataset:來自 28 份區塊鏈安全相關 PDF 報告。

每個資料集都包含 50 個問題。建構流程如下:

  1. 先用 Gemini 2.5 Flash 為每份文件生成候選問題池。
  2. 人工挑選其中 50 題,作為最終問答集合。
  3. 再用同一模型結合來源文件生成參考答案。
  4. 最後由人工審核問題與參考答案,移除不準確或有幻覺的內容。

論文舉的例子包括:一般 CTI 資料集裡有「哪個勒索軟體集團在 2023 年 1 月攻擊英國 Royal Mail?」;區塊鏈資料集中則有「請解釋 permissionless distributed ledger 脈絡中的 51% attack」。這表示作者不是測抽象語言能力,而是測系統能不能從特定 CTI 報告中抓到具體事實與概念。

六、評測模型與實驗設計

作者比較了 7 個不同模型:

  • Google Gemini 2.0 Flash Lite
  • Google Gemini 2.0 Flash
  • OpenAI GPT-4o Mini
  • OpenAI GPT-4o
  • Anthropic Claude 3.5 Haiku
  • Anthropic Claude 3.7 Sonnet
  • Groq Deepseek-R1-Distill-Llama-70B

作者在兩組資料集上進行多輪測試,並使用 Ren 等人提出的 LLM self-evaluation 方法,讓另一個 LLM 來判斷 RAGRecon 答案與參考答案之間的語意一致程度。同時,作者沒有完全依賴自動評分,而是又做了人工檢查,以確認自動評估是否可靠。

七、主要實驗結果

(一)答案與參考答案匹配率

論文摘要指出,最佳組合下,RAGRecon 生成的答案與參考答案匹配率超過 91%。這個結果說明,在限定資料來源、限定問題集合、限定 RAG 檢索上下文的情況下,系統可以相當穩定地回答 CTI 問題。

(二)Faithfulness 表現

Faithfulness 幾乎在所有輪次都高於 0.8 / 1.0。作者把這解讀為:模型大多數回答都能被檢索到的 CTI 上下文支持,因此幻覺率相對低。對 CTI 場景來說,這個指標特別重要,因為分析師不能只要「像真的」回答,而是要能回溯到證據。

(三)Context Relevance 表現

作者報告平均只有約 8% 的檢索內容被真正拿來支撐答案。這代表兩件事:

  1. 系統目前仍會取回不少非必要上下文;
  2. 儘管如此,模型仍能在其中找到足夠的關鍵證據完成回答。

此結果顯示檢索精確度仍有優化空間,例如更好的 reranking、query expansion、或結合結構化過濾條件。

(四)人工驗證 LLM 自評的一致性

作者人工審查了 2,050 筆 LLM 自評決策。人工驗證後,不同模型在兩組資料集上的「正確判斷率」大致落在 90%~97% 區間。文中表格列出的代表數值包括:

  • 傳統 CTI 資料集:約 92.00%~94.67%
  • 區塊鏈 CTI 資料集:約 91.33%~97.33%

這說明作者不是只展示自動評分結果,而是額外檢驗了「評分器本身」的可信度。從 CTI pipeline 的觀點來看,這一步很重要,因為若評估器判斷本身不穩,後續就難以比較不同模型或不同檢索設計。

八、作者的分析與限制

(一)可重現性

作者指出資料匯入與檢索流程具可重現性;同一查詢在同一資料集上會找到相同上下文。這讓系統分析結果能較容易被審計,也方便做 benchmark。

(二)生成與自評仍有隨機波動

雖然檢索上下文不變,但不同測試輪次的答案措辭與自評結果仍可能有差異。作者提出兩種原因:

  1. 自評 LLM 偶爾會錯判答案與參考答案是否語意等價;
  2. 回答 LLM 有時會忽略已經存在於上下文中的部分關鍵資訊。

(三)小中型模型在 KG 格式化上較不穩

作者在結論中特別提到,一些參數規模至多 20B 的模型,在處理知識圖譜輸出時可靠性較不一致,主要問題是格式錯誤。也就是說,雖然模型可能理解了上下文,但無法穩定輸出符合預期結構的 JSON / 關係資料,進而影響 KG 建構。對需要圖譜抽取或 STIX/ATT&CK 結構化輸出的 CTI 自動化場景而言,這是一個很實際的工程限制。

九、對 CTI 與 SOC 工作流程的意義

從本文設計可看出幾個對 CTI 實務特別重要的技術方向:

  • 從非結構化報告到可檢索知識:先向量化 PDF 報告,再將問題映射到證據片段。
  • 從自然語言回答到可解釋表示:不只給結論,還產生關係圖,降低黑箱性。
  • 從單輪問答到互動式調查:CLI/GUI 與對話歷史設計,適合分析師連續追問。
  • 從通用模型到領域化使用:不重訓模型,而是透過 CTI 文件、RAG 與圖譜提示詞實現落地。

若把這篇論文放到近年的 CTI + LLM 脈絡中,它屬於「可解釋 RAG 型 CTI 助理」路線:不是專注於 ATT&CK technique 抽取、不是專注於 threat attribution 分類,而是聚焦在如何讓 CTI 問答結果可視化、可追索、可審閱

十、重點閱讀筆記整理

  1. 論文提出的 RAGRecon,把 CTI 問答與 KG 解釋綁在一起,形成雙輸出架構。
  2. 資料來源是 PDF 威脅報告,切塊大小 1000 字元、重疊 100 字元。
  3. 嵌入模型使用 all-MiniLM-L6-v2,向量儲存使用 ChromaDB。
  4. 查詢時固定取 top-k = 6 個 chunk,屬於 RAG-Sequence。
  5. KG 由 LLM 依據同一批檢索上下文抽取 subject-relation-object 三元組後建出。
  6. 評估指標包含 Faithfulness 與 Context Relevance,並明確給出計算流程。
  7. 兩組自建資料集分別來自 24 份一般 CTI 報告與 28 份區塊鏈 CTI 報告,各 50 題。
  8. 最佳模型/組合下,答案與參考答案匹配率超過 91%。
  9. Faithfulness 大多超過 0.8,Context Relevance 平均約 8%。
  10. 作者另外人工驗證 2,050 筆 LLM 自評決策,驗證自動評估大致可用。
  11. 知識圖譜輸出最主要的不穩定點來自小中型模型的格式化能力,而不是單純檢索失敗。

十一、結論

這篇論文的技術貢獻在於,作者不把 RAG 視為單純的答案補強工具,而是進一步把檢索證據轉成可視化知識圖譜,讓 CTI 問答具有更高的可解釋性。整體方法在實驗中顯示出不錯的匹配率與 faithfulness,並透過人工驗證補強了 LLM 自評流程的可信度。其限制則在於檢索上下文仍有冗餘、KG 抽取對模型格式穩定性敏感,且資料集規模仍偏小。即便如此,這篇工作已經相當清楚地展示出:在 CTI 場景中,RAG、LLM 與知識圖譜可以被整合成一套兼顧回答、證據與解釋的分析流程。


Disclaimer:本文內容依據論文 Large Language Models for Explainable Threat Intelligence 由AI進行整理與技術解讀,僅供學術研究、教育訓練與資安情資分析參考,不構成任何產品保證、部署建議或攻防操作指引。實際應用仍需配合組織資料治理、模型驗證、法規遵循與人工審查。

You may also like