論文閱讀分析：Large Language Models for Explainable Threat Intelligence

2026 年 4 月 6 日

Large Language Models for Explainable Threat Intelligence

作者：Tiago Dinis、Miguel Correia、Roger Tavares
年份：2025
來源：arXiv / 後續收錄於 IEEE 相關會議出版頁面
論文連結：https://arxiv.org/abs/2511.05406
PDF：https://arxiv.org/pdf/2511.05406v1.pdf
DOI：10.48550/arXiv.2511.05406

一、研究問題與動機

這篇論文要處理的核心問題，是如何把大型語言模型（LLM）真正變成可用於網路威脅情報（CTI）的問答與分析系統，同時降低黑箱風險。作者指出，傳統 LLM 雖然擅長處理非結構化文字，但面對即時性高、專業詞彙密集、證據來源分散的 CTI 場景時，常見限制包括：知識截止、幻覺、以及無法清楚說明答案是從哪些證據推得。為此，論文提出 RAGRecon，把檢索增強生成（RAG）與知識圖譜（Knowledge Graph, KG）結合，讓系統不只回答問題，還能把回答背後的概念關聯圖視覺化，作為可解釋威脅情報的輸出。

作者設定的應用對象主要是 SOC 分析師與 CTI 人員。實務上，他們需要快速閱讀大量 PDF 威脅報告、判斷威脅脈絡、理解漏洞與攻擊關聯，並從非結構化內容中提取對調查有用的上下文。RAGRecon 的目標，就是在不重新訓練專用模型的前提下，利用現成 LLM、向量檢索與圖譜表示，提供可追索、可視覺化、可互動查詢的 CTI 輔助能力。

二、論文提出的方法：RAGRecon

（一）整體架構

RAGRecon 的流程可以整理為下列五個步驟：

使用者輸入自然語言問題。
系統到向量資料庫中搜尋與問題語意最接近的文件片段。
把檢索到的上下文提供給 LLM，生成文字答案。
再用另一個圖譜生成提示，要求 LLM 從相同上下文中抽取實體與關係。
把抽出的三元組轉成知識圖譜，與文字答案一起回傳給使用者。

這個設計的關鍵不是單純做 RAG 問答，而是把「回答」與「可解釋表示」拆成雙輸出結構。也就是說，同一批檢索到的證據，一方面餵給 LLM 形成回答，另一方面要求模型把上下文中的主體、關聯、客體轉成結構化關係，最後以 KG 視覺化，讓分析師看到系統如何在上下文中建立威脅知識連結。

（二）資料匯入與向量化

系統資料來源是使用者提供的 PDF 威脅報告。作者使用 LangChain 的 PyPDFDirectoryLoader 載入所有 PDF，並將每一頁視為文件物件。接著用 RecursiveCharacterTextSplitter 進行文字切塊，主要設定如下：

Chunk Size：1000 個字元
Chunk Overlap：100 個字元
目的：避免長文超出模型上下文視窗，並維持相鄰片段語意連續性

每個 chunk 都會被指派唯一識別碼，格式為：

filename_p<page_number>_c<chunk_index_on_that_page>

例如某份 report.pdf 第 5 頁的第 3 個 chunk，可表示為：

report.pdf_p4_c2

向量嵌入部分，作者使用 HuggingFace 的 sentence-transformers/all-MiniLM-L6-v2 模型生成文字向量，並把向量與中繼資料存入 ChromaDB。這代表檢索階段採用的是密集檢索（dense retrieval），不是單純關鍵字比對，而是以語意相似度找出最接近問題的文件片段。

（三）查詢與回答生成

當使用者送出問題後，系統先把問題轉成嵌入向量，再到 ChromaDB 中做相似度搜尋。論文實作中使用 top-k = 6，也就是取最相近的 6 個文本片段，將其串接為最終上下文。此處屬於 RAG-Sequence 形式：先檢索一次，再以固定上下文生成完整答案，而非在逐 token 生成過程中動態重檢索。

LLM 接著在「使用者問題 + 檢索上下文」的提示下輸出回答。作者特別強調系統是 model-agnostic，可切換不同 LLM 供應商模型，且保留對話歷史，使後續追問仍能維持一致脈絡。

（四）知識圖譜生成

RAGRecon 的第二個核心模組，是針對同一批檢索內容建立知識圖譜。作者設計專門提示詞，要求 LLM 輸出如下形式的結構化關係：

{"subject": "A", "relationship": "B", "object": "C"}

多筆關係組合後，即可形成實體—關係—實體的圖結構。系統再用 NetworkX 與 Pyvis 產生互動式 HTML 圖譜，供使用者在 GUI 中查看。這個圖譜不是外部知識庫預先存在的 CTI ontology，而是由 RAG 檢索出的上下文在查詢當下動態抽取得到，因此可視為針對單次問題的臨時解釋圖。

三、理論基礎與文中公式

（一）Faithfulness

作者採用 Faithfulness 衡量答案是否真正被上下文支持，也就是回答是否忠於檢索到的證據。論文給出的計算方式為：

Faithfulness = Number of Statements Supported by Context / Total Number of Statements

其評估步驟為：

先由 LLM 把 RAG 產生的答案切成多個陳述句。
再由 LLM 逐句判斷是否能被檢索上下文支持，輸出 Yes/No。
統計 Yes 與 No 的數量。
以 Yes 占總陳述數的比例作為 Faithfulness 分數。

如果此值越高，表示幻覺越少，回答越能回扣原始 CTI 文件內容。

（二）Context Relevance

作者也衡量檢索上下文中到底有多少內容與問題真正相關，公式如下：

Context Relevance = Number of Relevant Sentences / Total Number of Sentences in Context

其步驟是：

由 LLM 從檢索上下文抽出與問題相關的句子。
統計相關句數。
統計上下文總句數。
取兩者比值。

這個指標代表檢索效率。若相關比例低，表示系統雖然可能答對，但餵了太多不必要內容，會增加 token 成本與模型干擾。

四、實作細節

框架：LangChain
向量資料庫：ChromaDB
嵌入模型：sentence-transformers/all-MiniLM-L6-v2
圖譜處理：NetworkX、Pyvis
介面：CLI 與 Flask GUI 雙版本
檢索策略：語意相似度檢索，固定 top-k = 6
文件型態：PDF 威脅報告

作者另外提到，系統的 ingestion 與 retrieval 在相同資料集下是確定性的（deterministic）：相同 PDF、相同切塊、相同向量化流程，會產生相同的 chunks 與相同檢索上下文。真正可能波動的是 LLM 生成階段與 LLM 自我評估階段，因為語句表達與語意判斷可能在不同輪次略有差異。

五、資料集建構方式

為了驗證系統，作者自行建立兩組資料集：

Conventional CTI Dataset：來自 24 份一般網路安全/威脅情報 PDF 報告。
Blockchain CTI Dataset：來自 28 份區塊鏈安全相關 PDF 報告。

每個資料集都包含 50 個問題。建構流程如下：

先用 Gemini 2.5 Flash 為每份文件生成候選問題池。
人工挑選其中 50 題，作為最終問答集合。
再用同一模型結合來源文件生成參考答案。
最後由人工審核問題與參考答案，移除不準確或有幻覺的內容。

論文舉的例子包括：一般 CTI 資料集裡有「哪個勒索軟體集團在 2023 年 1 月攻擊英國 Royal Mail？」；區塊鏈資料集中則有「請解釋 permissionless distributed ledger 脈絡中的 51% attack」。這表示作者不是測抽象語言能力，而是測系統能不能從特定 CTI 報告中抓到具體事實與概念。

六、評測模型與實驗設計

作者比較了 7 個不同模型：

Google Gemini 2.0 Flash Lite
Google Gemini 2.0 Flash
OpenAI GPT-4o Mini
OpenAI GPT-4o
Anthropic Claude 3.5 Haiku
Anthropic Claude 3.7 Sonnet
Groq Deepseek-R1-Distill-Llama-70B

作者在兩組資料集上進行多輪測試，並使用 Ren 等人提出的 LLM self-evaluation 方法，讓另一個 LLM 來判斷 RAGRecon 答案與參考答案之間的語意一致程度。同時，作者沒有完全依賴自動評分，而是又做了人工檢查，以確認自動評估是否可靠。

七、主要實驗結果

（一）答案與參考答案匹配率

論文摘要指出，最佳組合下，RAGRecon 生成的答案與參考答案匹配率超過 91%。這個結果說明，在限定資料來源、限定問題集合、限定 RAG 檢索上下文的情況下，系統可以相當穩定地回答 CTI 問題。

（二）Faithfulness 表現

Faithfulness 幾乎在所有輪次都高於 0.8 / 1.0。作者把這解讀為：模型大多數回答都能被檢索到的 CTI 上下文支持，因此幻覺率相對低。對 CTI 場景來說，這個指標特別重要，因為分析師不能只要「像真的」回答，而是要能回溯到證據。

（三）Context Relevance 表現

作者報告平均只有約 8% 的檢索內容被真正拿來支撐答案。這代表兩件事：

系統目前仍會取回不少非必要上下文；
儘管如此，模型仍能在其中找到足夠的關鍵證據完成回答。

此結果顯示檢索精確度仍有優化空間，例如更好的 reranking、query expansion、或結合結構化過濾條件。

（四）人工驗證 LLM 自評的一致性

作者人工審查了 2,050 筆 LLM 自評決策。人工驗證後，不同模型在兩組資料集上的「正確判斷率」大致落在 90%～97% 區間。文中表格列出的代表數值包括：

傳統 CTI 資料集：約 92.00%～94.67%
區塊鏈 CTI 資料集：約 91.33%～97.33%

這說明作者不是只展示自動評分結果，而是額外檢驗了「評分器本身」的可信度。從 CTI pipeline 的觀點來看，這一步很重要，因為若評估器判斷本身不穩，後續就難以比較不同模型或不同檢索設計。

八、作者的分析與限制

（一）可重現性

作者指出資料匯入與檢索流程具可重現性；同一查詢在同一資料集上會找到相同上下文。這讓系統分析結果能較容易被審計，也方便做 benchmark。

（二）生成與自評仍有隨機波動

雖然檢索上下文不變，但不同測試輪次的答案措辭與自評結果仍可能有差異。作者提出兩種原因：

自評 LLM 偶爾會錯判答案與參考答案是否語意等價；
回答 LLM 有時會忽略已經存在於上下文中的部分關鍵資訊。

（三）小中型模型在 KG 格式化上較不穩

作者在結論中特別提到，一些參數規模至多 20B 的模型，在處理知識圖譜輸出時可靠性較不一致，主要問題是格式錯誤。也就是說，雖然模型可能理解了上下文，但無法穩定輸出符合預期結構的 JSON / 關係資料，進而影響 KG 建構。對需要圖譜抽取或 STIX/ATT&CK 結構化輸出的 CTI 自動化場景而言，這是一個很實際的工程限制。

九、對 CTI 與 SOC 工作流程的意義

從本文設計可看出幾個對 CTI 實務特別重要的技術方向：

從非結構化報告到可檢索知識：先向量化 PDF 報告，再將問題映射到證據片段。
從自然語言回答到可解釋表示：不只給結論，還產生關係圖，降低黑箱性。
從單輪問答到互動式調查：CLI/GUI 與對話歷史設計，適合分析師連續追問。
從通用模型到領域化使用：不重訓模型，而是透過 CTI 文件、RAG 與圖譜提示詞實現落地。

若把這篇論文放到近年的 CTI + LLM 脈絡中，它屬於「可解釋 RAG 型 CTI 助理」路線：不是專注於 ATT&CK technique 抽取、不是專注於 threat attribution 分類，而是聚焦在如何讓 CTI 問答結果可視化、可追索、可審閱。

十、重點閱讀筆記整理

論文提出的 RAGRecon，把 CTI 問答與 KG 解釋綁在一起，形成雙輸出架構。
資料來源是 PDF 威脅報告，切塊大小 1000 字元、重疊 100 字元。
嵌入模型使用 all-MiniLM-L6-v2，向量儲存使用 ChromaDB。
查詢時固定取 top-k = 6 個 chunk，屬於 RAG-Sequence。
KG 由 LLM 依據同一批檢索上下文抽取 subject-relation-object 三元組後建出。
評估指標包含 Faithfulness 與 Context Relevance，並明確給出計算流程。
兩組自建資料集分別來自 24 份一般 CTI 報告與 28 份區塊鏈 CTI 報告，各 50 題。
最佳模型/組合下，答案與參考答案匹配率超過 91%。
Faithfulness 大多超過 0.8，Context Relevance 平均約 8%。
作者另外人工驗證 2,050 筆 LLM 自評決策，驗證自動評估大致可用。
知識圖譜輸出最主要的不穩定點來自小中型模型的格式化能力，而不是單純檢索失敗。

十一、結論

這篇論文的技術貢獻在於，作者不把 RAG 視為單純的答案補強工具，而是進一步把檢索證據轉成可視化知識圖譜，讓 CTI 問答具有更高的可解釋性。整體方法在實驗中顯示出不錯的匹配率與 faithfulness，並透過人工驗證補強了 LLM 自評流程的可信度。其限制則在於檢索上下文仍有冗餘、KG 抽取對模型格式穩定性敏感，且資料集規模仍偏小。即便如此，這篇工作已經相當清楚地展示出：在 CTI 場景中，RAG、LLM 與知識圖譜可以被整合成一套兼顧回答、證據與解釋的分析流程。

Disclaimer：本文內容依據論文 Large Language Models for Explainable Threat Intelligence 由AI進行整理與技術解讀，僅供學術研究、教育訓練與資安情資分析參考，不構成任何產品保證、部署建議或攻防操作指引。實際應用仍需配合組織資料治理、模型驗證、法規遵循與人工審查。

論文閱讀分析：Large Language Models for Explainable Threat Intelligence

Large Language Models for Explainable Threat Intelligence

一、研究問題與動機

二、論文提出的方法：RAGRecon

（一）整體架構

（二）資料匯入與向量化

（三）查詢與回答生成

（四）知識圖譜生成

三、理論基礎與文中公式

（一）Faithfulness

（二）Context Relevance

四、實作細節

五、資料集建構方式

六、評測模型與實驗設計

七、主要實驗結果

（一）答案與參考答案匹配率

（二）Faithfulness 表現

（三）Context Relevance 表現

（四）人工驗證 LLM 自評的一致性

八、作者的分析與限制

（一）可重現性

（二）生成與自評仍有隨機波動

（三）小中型模型在 KG 格式化上較不穩

九、對 CTI 與 SOC 工作流程的意義

十、重點閱讀筆記整理

十一、結論

發佈留言取消回覆

You may also like

近期文章

廣告

文章分類

近期留言

Large Language Models for Explainable Threat Intelligence

一、研究問題與動機

二、論文提出的方法：RAGRecon

（一）整體架構

（二）資料匯入與向量化

（三）查詢與回答生成

（四）知識圖譜生成

三、理論基礎與文中公式

（一）Faithfulness

（二）Context Relevance

四、實作細節

五、資料集建構方式

六、評測模型與實驗設計

七、主要實驗結果

（一）答案與參考答案匹配率

（二）Faithfulness 表現

（三）Context Relevance 表現

（四）人工驗證 LLM 自評的一致性

八、作者的分析與限制

（一）可重現性

（二）生成與自評仍有隨機波動

（三）小中型模型在 KG 格式化上較不穩

九、對 CTI 與 SOC 工作流程的意義

十、重點閱讀筆記整理

十一、結論

發佈留言 取消回覆

You may also like

論文閱讀分析：用 LLM 與 CTI 推進 Autonomous Incident Response

論文閱讀分析：用大型語言模型與威脅情資推進自動化事件回應

近期文章

廣告

文章分類

近期留言

發佈留言取消回覆