RAGRecon 論文閱讀分析:用 RAG 與知識圖譜打造可解釋的威脅情報系統
論文基本資訊
- 論文標題:Large Language Models for Explainable Threat Intelligence
- 系統名稱:RAGRecon
- 來源:arXiv
- 年份:2025
- 論文連結:https://arxiv.org/abs/2511.05406
- 主題:CTI、RAG、LLM、Knowledge Graph、Explainable AI、Threat Intelligence QA
這篇 Large Language Models for Explainable Threat Intelligence 的核心重點,不只是再做一個 CTI 問答系統,而是試圖回答一個更實務的問題:當 LLM 用於威脅情報分析時,我們能不能讓它不只回答,還能把它認為重要的資訊關聯顯示出來,讓分析師看得懂它為什麼這樣回答?
作者提出的系統叫做 RAGRecon。它把 Retrieval-Augmented Generation(RAG)、大型語言模型(LLM) 與 Knowledge Graph(KG) 結合起來,讓使用者不只拿到文字答案,還能看到一張對應的知識圖譜,藉此提升 Threat Intelligence 系統的透明度與可解釋性。
如果前面幾篇文章比較偏向:
- CTI 抽取
- CTI 可信度驗證
- 攻擊技術對映
那這篇則更偏向:如何把 RAG-based CTI 問答系統做得更可解釋、讓分析師更願意信任。
研究問題
這篇論文的問題意識很清楚。作者認為,LLM 雖然在文本理解與生成上非常強,但用在 CTI 時有兩個典型問題:
- 知識更新落差:單靠訓練期參數記憶,無法處理即時威脅情報
- 黑箱性:即使回答看起來合理,分析師也難以理解其推理依據
因此,作者實際想解決的是三件事:
- 如何用 RAG 讓 LLM 在 CTI 場景下取得較新的、較相關的上下文?
- 如何讓問答系統根據使用者自己的 CTI 文件來回答問題,而不是只靠通用知識?
- 如何用可視化方式,把模型使用到的重要概念與關聯結構呈現給分析師?
換句話說,這篇論文不是只在追求答對率,而是在追求 answer + explanation + visualization 的整體體驗。
方法概觀:RAGRecon 是怎麼運作的?
RAGRecon 的整體流程可以概括成四步:
使用者提問
↓
從向量資料庫檢索最相關的 CTI 文件片段
↓
LLM 根據 context 產生回答
↓
LLM 再從同一批 context 中抽取實體與關係
↓
建立知識圖譜並可視化
也就是說,這個系統其實有兩個輸出:
- 文字回答
- 對應的 Knowledge Graph
這個雙輸出設計,是它和一般 RAG QA 系統最主要的差別。
RAGRecon 的系統架構
論文將系統分成兩大部分:
- 資料處理與向量化階段
- 互動式查詢與圖譜生成階段
1. Data Ingestion and Vectorization
首先,系統會先把來源文件(主要是 PDF 格式 CTI 報告)載入,接著切成較小的文本 chunks。作者明確說明,這樣做是為了:
- 避免長文件超出 embedding 與 LLM 處理能力
- 讓每個 chunk 保有可檢索的語義單位
- 降低 long context 中重要訊息被埋沒的風險
作者使用的 text splitting 參數包括:
- chunk size = 1000 characters
- chunk overlap = 100 characters
並使用分層 separators 來沿著段落、換行、句點等邏輯邊界切割文本。這種做法很典型,但在 CTI 場景下很重要,因為技術描述常跨句甚至跨段,若切得太碎會破壞語意。
2. Embedding 與 Vector Store
文件切塊之後,系統使用 sentence-transformers/all-MiniLM-L6-v2 產生 embeddings,再把結果存進 ChromaDB。
這裡的檢索策略本質上是 semantic search,而不是 keyword matching。也就是說,系統希望找的是「語意上與問題最接近的 chunks」,而不是字面重合最多的片段。
此外,作者也對每個 chunk 建立了可追蹤的自訂 ID,格式類似:
filename_p<page_number>_c<chunk_index>
這能幫助後續回溯檔案來源與 chunk 的原始位置,對 CTI 分析系統來說是合理的設計,因為 analyst 常需要知道某段答案來自哪一頁、哪份報告。
Interactive RAG:文字回答怎麼生成?
在互動查詢階段,使用者送出問題後,系統會:
- 將 query 向量化
- 從 ChromaDB 做 similarity search
- 取出 top-k 最相關 chunks
- 把這些 chunks 拼成 context
- 結合原始問題組成 RAG prompt
- 交給 LLM 生成回答
論文中提到,系統採用的是 RAG-Sequence 類型的做法:先檢索一組文件,再一次性生成回答,而不是邊生成邊持續檢索。
這種設計比較適合做整體性的 CTI 解釋與摘要式問答,因為它偏向「先把相關 context 準備好,再讓模型整合出較完整的回答」。
Knowledge Graph 生成:可解釋性的核心
RAGRecon 最有特色的地方,就是它在生成文字回答之後,還會再用同一批 retrieved context 去建立 Knowledge Graph。
具體流程是:
- 系統針對已檢索到的 context 再生成一個 graph-related prompt
- 要求 LLM 從 context 中抽出實體(nodes)與關係(edges)
- LLM 以結構化 JSON 格式輸出 subject / relationship / object
- 系統再用 NetworkX 與 Pyvis 把這些三元組變成互動式圖譜
文中示例的格式大致像:
{
"subject": "BOLA",
"relationship": "arises from",
"object": "APIs exposing object identifiers"
}
這代表作者並不是直接用外部 ontology 或固定 schema 強制建圖,而是讓 LLM 依照當前 context 抽出圖譜關係。這種設計很靈活,但同時也依賴模型的關係抽取品質。
為什麼 Knowledge Graph 真的有幫助?
作者在論文中給的理由其實相當實際:CTI 文件常常又長又密,分析師面對 retrieved context 時,容易遇到「一整面文字牆」的問題。就算答案對,分析師仍未必容易快速掌握:
- 關鍵主體是誰
- 哪些概念彼此相關
- 哪個關係是模型認為重要的
Knowledge Graph 的作用,就是把這些隱含在文字裡的關聯顯式化。也就是說,它的目的不只是視覺化漂亮,而是:
- 降低 cognitive load
- 幫助 analyst 建立 mental model
- 讓使用者更容易提出 follow-up questions
- 讓模型的「回答依據」有更可檢視的結構表示
從 explainable AI 角度來看,這篇論文的想法其實很清楚:不是去解釋 transformer 內部權重,而是把模型使用到的外部 context 轉成 analyst 可理解的圖結構。
RAGRecon 的實作細節
論文也提供了不少工程實作資訊,這部分對研究生與工程實作者都很有參考價值。系統主要使用:
- LangChain:編排整個 retrieval 與 LLM pipeline
- ChromaDB:作為 vector store
- Flask:提供 web interface
- NetworkX + Pyvis:建構與視覺化 knowledge graph
系統還設計成 model-agnostic,可切換多種 LLM providers,並支援 conversation history,讓使用者能像 chatbot 一樣連續追問。這使它不只是單次 QA demo,而是更接近 analyst 互動工具。
評估設計
這篇論文的實驗使用了兩組自建資料集:
- 一般 CTI dataset:來自 24 份 PDF 報告
- Blockchain CTI dataset:來自 28 份 PDF 報告
每個資料集都包含:
- 50 個問題
總體來看,這是以 document-grounded QA 的形式來驗證 RAGRecon 是否能根據真實 CTI 文件提供正確且可信的回答。
此外,作者還測了 7 種不同 LLMs,這一點值得注意,因為它不只是針對單一模型做 showcase,而是嘗試觀察模型之間的差異。
實驗結果
根據論文摘要與介紹,RAGRecon 在最佳組合下:
- 回答與 reference responses 的匹配率超過 91%
- Faithfulness 指標穩定超過 0.8 / 1.0
這表示系統在 factual grounding 上表現不錯,幻覺率相對較低。
作者也報告一個有意思的指標:
- Context Relevance 約 8%
這代表模型平均只使用 retrieved context 的一小部分來產生回答。從某個角度看,這顯示檢索內容可能仍有冗餘;但從另一個角度看,也說明模型確實有在挑選其中最相關的部分,而不是平均使用所有檢索內容。
此外,作者對 2050 個 automated decisions 做人工驗證,結果顯示正確率多半落在 90%–97% 之間。這對驗證其 automated self-evaluation methodology 有一定說服力。
這篇論文的優點
如果從系統研究角度來看,RAGRecon 的優點主要有四個:
- 把 RAG 和 explainability 綁在一起:不只回答,還把 reasoning context 可視化
- 非常工程化:從 PDF 載入、chunking、embedding、querying 到 graph visualization 都交代得清楚
- 對 analyst 使用情境有考慮:支援 follow-up questions、contextual QA、圖譜輔助理解
- 兼顧一般 CTI 與 blockchain CTI:讓應用範圍不只停在傳統 threat report
這篇論文的限制
但這篇論文也有幾個值得注意的限制:
- KG 品質高度依賴 LLM 關係抽取能力:若 LLM 抽錯 subject-relation-object,圖會很漂亮但可能不準
- 資料集規模不大:兩個資料集各 50 題,仍偏 prototype 等級
- 評估重點偏 answer matching 與 faithfulness:對 KG 本身的結構品質、關係正確率沒有看到非常完整的獨立評估
- RAG-Sequence 架構較靜態:若遇到需要逐步調整檢索方向的問題,未必比 multi-step retrieval methods 更強
換句話說,這篇論文更像是在提出一個很好的 explainable CTI QA 系統原型,而不是已經完全解決 CTI reasoning 可解釋性的所有問題。
和前面幾篇文章的關係
若把這篇放進你目前已經做的系列脈絡中,它的位置很清楚:
- RAGIntel 偏向 RAG 用於攻擊調查
- KGV / LRCTI 偏向 CTI credibility verification
- RAGRecon 則偏向 explainable CTI question answering
它補上的那一塊是:當 LLM 根據 CTI 文件回答問題時,如何把答案背後的知識關係視覺化給人看。
重點整理
- 這篇論文提出 RAGRecon,一套結合 LLM、RAG 與 Knowledge Graph 的 explainable threat intelligence 系統。
- 系統會先從使用者提供的 CTI 文件中檢索相關 context,再生成文字答案。
- 接著,系統會從同一批 context 中抽取 subject-relation-object,建成 Knowledge Graph 並視覺化。
- 文件前處理包括 PDF loading、chunking、embedding 與 ChromaDB 儲存。
- 作者使用兩個自建資料集與 7 種 LLM 做評估。
- 最佳組合的回答與 reference responses 匹配率超過 91%,Faithfulness 高於 0.8。
- 這篇研究的主要價值不只是 QA,而是把 QA 結果變成 analyst 可理解的圖式解釋。
Takeaway
這篇論文最值得記住的一點,是它把「LLM 能回答 CTI 問題」這件事,再往前推了一步:不只要答對,還要讓分析師看到答案背後的重要概念與連結。
RAGRecon 的真正價值不在於它用了多少模型或做了多少問答,而在於它試圖縮短 analyst 與 black-box LLM 之間的距離。對資安領域來說,這很重要,因為威脅情報從來不只是生成一段合理文字,而是要讓人能理解、質疑、追問與驗證。從這個角度看,Knowledge Graph 在這篇論文裡不是附加視覺化效果,而是 explainable CTI 的核心介面之一。
免責聲明
本文由 AI 整理與撰寫,內容主要依據公開論文、技術文件與可取得之研究資料進行彙整、解讀與摘要。儘管已盡力確保內容之完整性與可讀性,仍可能因模型理解限制、資料來源差異或語意轉譯過程而存在疏漏、不精確或更新延遲之處。本文內容僅供研究交流與知識分享參考,實際技術細節、實驗設定與最終結論,仍應以原始論文、官方文件及作者公開資料為準。
