RAGIntel 論文閱讀分析:用 RAG 與大型語言模型做攻擊調查
論文基本資訊
- 論文標題:LLM-powered threat intelligence: a retrieval-augmented generation approach for cyber attack investigation
- 來源:PeerJ Computer Science
- 主題:CTI、RAG、LLM、攻擊調查、自動化威脅分析
- 論文頁面:https://peerj.com/articles/cs-3371/
LLM-powered threat intelligence: a retrieval-augmented generation approach for cyber attack investigation 這篇論文聚焦在一個非常實際的問題:當資安團隊面對大量異質、快速變化、且彼此分散的 CTI 資料時,是否能透過 大型語言模型(LLM) 加上 Retrieval-Augmented Generation(RAG),來提升攻擊調查與威脅分析的效率與準確性。
這篇研究的切入點很清楚。作者認為,光靠 LLM 並不足以支撐可靠的攻擊調查,因為 LLM 可能出現幻覺、知識過時,或誤解高度技術性的安全內容。因此,他們不是直接把 CTI 問題丟給 LLM,而是設計了一套 RAG-based LLM 系統 RAGIntel,讓模型在回答攻擊調查問題時,能先從外部威脅知識庫中找出相關內容,再根據這些內容產生更有依據的回應。
研究問題:這篇論文想解決什麼?
攻擊調查的本質,是從零散的威脅情資中推論攻擊者的工具、技術、TTP、可能目標,甚至進一步嘗試做歸因。問題在於,CTI 本身有幾個先天困難:
- 資料來源很多,而且格式不一致
- 不同資料之間存在語意差異與時間差
- 內容複雜且高度技術化
- 手動分析非常耗時
雖然 LLM 看起來很適合處理這類文字分析任務,但作者也清楚指出它的限制:
- 容易產生 hallucination
- 模型知識可能過時
- 對技術內容可能理解錯誤
- 若直接拿來做攻擊調查,可能產生不可靠的威脅判斷
因此,這篇論文要回答的核心問題是:能否透過 RAG 架構,把外部 CTI 知識庫與 LLM 結合,降低幻覺與知識過時問題,讓攻擊調查回應更準確、更有根據?
方法概觀:RAGIntel 是怎麼設計的?
作者提出的系統名稱是 RAGIntel。整體概念不複雜,但設計很務實:先建立一個涵蓋 CTI 知識的外部知識庫,再用混合式檢索、重排序與壓縮等後處理機制,替 LLM 找出最相關的上下文,最後再由 LLM 生成回應。
整體流程可以整理成:
Attack investigation query
↓
Hybrid retrieval from CTI knowledge base
↓
Reranking of retrieved contexts
↓
Context compression
↓
Top relevant documents selected
↓
Prompt augmentation
↓
LLM-generated investigation response
也就是說,這篇論文的重點不只是「用 RAG」,而是它很認真地處理了 RAG 裡最重要的一段:如何把真正有用的資料找出來,再交給 LLM。
知識庫用的是什麼?
RAGIntel 的知識庫建立在 MITRE ATT&CK 之上。作者將其視為一個公開、結構化且足夠實用的威脅知識來源,涵蓋:
- adversary tools
- software
- campaigns
- tactics
- techniques
- mitigations
這種選擇很合理,因為 ATT&CK 在 CTI 與攻擊分析中本來就是重要知識基礎,能為 RAG 提供一個相對穩定、可信且可查詢的外部知識庫。
Hybrid Retrieval:為什麼不能只靠單一檢索器?
RAGIntel 的一個技術重點,是使用 hybrid retrieval。作者沒有只用 dense retrieval 或只用 sparse retrieval,而是把兩者結合起來。
這樣做的原因很直接:
- sparse retrieval 對明確關鍵詞與詞面比對很有效
- dense retrieval 較能抓到語意相似性
在 CTI 這種技術詞彙密集、但又常有語意變化的領域中,單用其中一種都可能遺漏關鍵資訊。混合式檢索可以兼顧關鍵字與語意層次,因此比單一路線更穩。
Post-retrieval Strategies:這篇論文真正的細節在這裡
這篇論文最值得注意的地方之一,是作者沒有把檢索完成就交給 LLM,而是做了兩層 post-retrieval 處理:
- reranking
- compression
1. Reranking
檢索器先抓回一批候選文件後,系統會再重新排序,讓最相關的內容排到前面。這一步很重要,因為即使檢索成功,文件排序若不夠準,真正關鍵的內容仍可能被埋沒。
2. Compression
接著,系統會對檢索內容做壓縮,保留更精簡但仍保有資訊量的內容。這樣做有兩個明顯好處:
- 減少 prompt 太長造成的雜訊
- 讓 LLM 更聚焦在真正關鍵的上下文
作者最後會從 top 10 檢索結果中進一步縮減,只保留最相關的幾份文件,作為最終的 prompt augmentation 內容。
RAG 為什麼特別適合攻擊調查?
作者整理了 RAG 在 CTI 與攻擊調查中的幾個優勢:
- 降低 hallucination:因為回應建立在檢索到的外部知識上
- 減少知識過時問題:知識庫可以更新,不必一直重訓模型
- 提升技術上下文理解:透過 ATT&CK 等專業資料補足模型的領域知識
- 更適合高準確度任務:像攻擊調查這種不能亂猜的場景
這也是這篇論文很有代表性的地方。它不是把 RAG 當潮流關鍵字,而是真的把 RAG 的優勢放進一個需要可靠答案的資安場景裡測試。
評估方式:作者怎麼驗證 RAGIntel?
根據論文內容,RAGIntel 的評估使用了 339 個攻擊調查相關查詢,資料來自不同 benchmark,並使用 RAGAS 作為評估框架。
這代表作者不是只做少量示範,而是使用一組相對完整的攻擊調查問題集來衡量系統表現。除此之外,他們也將 RAGIntel 與 standalone LLM 進行比較,以檢驗:
- 加上 retrieval 後是否真的更準
- post-retrieval 設計是否能提高回答品質
- RAG 相比純生成模型在攻擊調查中是否更可靠
這篇論文的重點不只是 RAG,而是「怎麼用好 RAG」
如果只看標題,你可能會以為這篇只是再做一個「RAG 套在資安」的案例。但實際上,它更重要的地方在於:
- 它很清楚知道 RAG 不是萬靈丹
- 它很重視 retriever 與 post-retrieval quality
- 它把上下文選擇與 prompt augmentation 當成真正的設計核心
這點和很多只做概念展示的 RAG 系統不同。作者很明白地指出:RAG 的成敗,很大程度取決於檢索品質、文件排序方式、上下文壓縮策略,以及知識庫本身的品質。
和一般 LLM 有什麼差別?
如果把 RAGIntel 和一般直接回答問題的 LLM 相比,最大的差別在於:
- 一般 LLM 主要依賴訓練時學到的靜態知識
- RAGIntel 會先去查外部知識,再把上下文送進模型
在一般聊天場景中,這差別可能不一定那麼重要;但在資安調查場景中,差別非常大。因為攻擊調查往往需要:
- 正確的術語對應
- 最新的威脅知識
- 有依據的技術推論
這些都不是單靠模型記憶就足夠可靠的。
重點整理
- 這篇論文提出 RAGIntel,一套用於攻擊調查的 RAG-based LLM 系統。
- 核心知識庫來自 MITRE ATT&CK。
- 系統採用 hybrid retrieval,結合 dense 與 sparse retrieval。
- 檢索後還會做 reranking 與 compression,提高上下文品質。
- 作者用 339 個攻擊調查問題與 RAGAS 進行評估。
- 研究重點不是只證明 RAG 可用,而是證明「經過良好設計的 RAG」能比 standalone LLM 更可靠。
Takeaway
這篇論文最值得記住的一點,是它清楚說明了:在 CTI 與攻擊調查場景中,真正關鍵的不只是 LLM 本身,而是 LLM 是否能建立在高品質、可追溯、可更新的外部知識基礎上。
RAGIntel 告訴我們,若想讓 LLM 真正進入資安分析流程,單靠模型語言能力還不夠,還必須把檢索、排序、壓縮與知識庫設計一起做好。換句話說,這篇論文真正展示的,不是「LLM 很強」,而是「當 LLM 被放進一個設計得當的 RAG 架構裡,它才可能成為可信的攻擊調查工具」。
免責聲明
本文由 AI 整理與撰寫,內容主要依據公開論文、技術文件與可取得之研究資料進行彙整、解讀與摘要。儘管已盡力確保內容之完整性與可讀性,仍可能因模型理解限制、資料來源差異或語意轉譯過程而存在疏漏、不精確或更新延遲之處。本文內容僅供研究交流與知識分享參考,實際技術細節、實驗設定與最終結論,仍應以原始論文、官方文件及作者公開資料為準。
