RAGIntel 論文閱讀分析:用 RAG 與大型語言模型做攻擊調查

論文基本資訊

  • 論文標題:LLM-powered threat intelligence: a retrieval-augmented generation approach for cyber attack investigation
  • 來源:PeerJ Computer Science
  • 主題:CTI、RAG、LLM、攻擊調查、自動化威脅分析
  • 論文頁面:https://peerj.com/articles/cs-3371/

LLM-powered threat intelligence: a retrieval-augmented generation approach for cyber attack investigation 這篇論文聚焦在一個非常實際的問題:當資安團隊面對大量異質、快速變化、且彼此分散的 CTI 資料時,是否能透過 大型語言模型(LLM) 加上 Retrieval-Augmented Generation(RAG),來提升攻擊調查與威脅分析的效率與準確性。

這篇研究的切入點很清楚。作者認為,光靠 LLM 並不足以支撐可靠的攻擊調查,因為 LLM 可能出現幻覺、知識過時,或誤解高度技術性的安全內容。因此,他們不是直接把 CTI 問題丟給 LLM,而是設計了一套 RAG-based LLM 系統 RAGIntel,讓模型在回答攻擊調查問題時,能先從外部威脅知識庫中找出相關內容,再根據這些內容產生更有依據的回應。

研究問題:這篇論文想解決什麼?

攻擊調查的本質,是從零散的威脅情資中推論攻擊者的工具、技術、TTP、可能目標,甚至進一步嘗試做歸因。問題在於,CTI 本身有幾個先天困難:

  • 資料來源很多,而且格式不一致
  • 不同資料之間存在語意差異與時間差
  • 內容複雜且高度技術化
  • 手動分析非常耗時

雖然 LLM 看起來很適合處理這類文字分析任務,但作者也清楚指出它的限制:

  • 容易產生 hallucination
  • 模型知識可能過時
  • 對技術內容可能理解錯誤
  • 若直接拿來做攻擊調查,可能產生不可靠的威脅判斷

因此,這篇論文要回答的核心問題是:能否透過 RAG 架構,把外部 CTI 知識庫與 LLM 結合,降低幻覺與知識過時問題,讓攻擊調查回應更準確、更有根據?

方法概觀:RAGIntel 是怎麼設計的?

作者提出的系統名稱是 RAGIntel。整體概念不複雜,但設計很務實:先建立一個涵蓋 CTI 知識的外部知識庫,再用混合式檢索、重排序與壓縮等後處理機制,替 LLM 找出最相關的上下文,最後再由 LLM 生成回應。

整體流程可以整理成:

Attack investigation query
        ↓
Hybrid retrieval from CTI knowledge base
        ↓
Reranking of retrieved contexts
        ↓
Context compression
        ↓
Top relevant documents selected
        ↓
Prompt augmentation
        ↓
LLM-generated investigation response

也就是說,這篇論文的重點不只是「用 RAG」,而是它很認真地處理了 RAG 裡最重要的一段:如何把真正有用的資料找出來,再交給 LLM

知識庫用的是什麼?

RAGIntel 的知識庫建立在 MITRE ATT&CK 之上。作者將其視為一個公開、結構化且足夠實用的威脅知識來源,涵蓋:

  • adversary tools
  • software
  • campaigns
  • tactics
  • techniques
  • mitigations

這種選擇很合理,因為 ATT&CK 在 CTI 與攻擊分析中本來就是重要知識基礎,能為 RAG 提供一個相對穩定、可信且可查詢的外部知識庫。

Hybrid Retrieval:為什麼不能只靠單一檢索器?

RAGIntel 的一個技術重點,是使用 hybrid retrieval。作者沒有只用 dense retrieval 或只用 sparse retrieval,而是把兩者結合起來。

這樣做的原因很直接:

  • sparse retrieval 對明確關鍵詞與詞面比對很有效
  • dense retrieval 較能抓到語意相似性

在 CTI 這種技術詞彙密集、但又常有語意變化的領域中,單用其中一種都可能遺漏關鍵資訊。混合式檢索可以兼顧關鍵字與語意層次,因此比單一路線更穩。

Post-retrieval Strategies:這篇論文真正的細節在這裡

這篇論文最值得注意的地方之一,是作者沒有把檢索完成就交給 LLM,而是做了兩層 post-retrieval 處理:

  • reranking
  • compression

1. Reranking

檢索器先抓回一批候選文件後,系統會再重新排序,讓最相關的內容排到前面。這一步很重要,因為即使檢索成功,文件排序若不夠準,真正關鍵的內容仍可能被埋沒。

2. Compression

接著,系統會對檢索內容做壓縮,保留更精簡但仍保有資訊量的內容。這樣做有兩個明顯好處:

  • 減少 prompt 太長造成的雜訊
  • 讓 LLM 更聚焦在真正關鍵的上下文

作者最後會從 top 10 檢索結果中進一步縮減,只保留最相關的幾份文件,作為最終的 prompt augmentation 內容。

RAG 為什麼特別適合攻擊調查?

作者整理了 RAG 在 CTI 與攻擊調查中的幾個優勢:

  • 降低 hallucination:因為回應建立在檢索到的外部知識上
  • 減少知識過時問題:知識庫可以更新,不必一直重訓模型
  • 提升技術上下文理解:透過 ATT&CK 等專業資料補足模型的領域知識
  • 更適合高準確度任務:像攻擊調查這種不能亂猜的場景

這也是這篇論文很有代表性的地方。它不是把 RAG 當潮流關鍵字,而是真的把 RAG 的優勢放進一個需要可靠答案的資安場景裡測試。

評估方式:作者怎麼驗證 RAGIntel?

根據論文內容,RAGIntel 的評估使用了 339 個攻擊調查相關查詢,資料來自不同 benchmark,並使用 RAGAS 作為評估框架。

這代表作者不是只做少量示範,而是使用一組相對完整的攻擊調查問題集來衡量系統表現。除此之外,他們也將 RAGIntel 與 standalone LLM 進行比較,以檢驗:

  • 加上 retrieval 後是否真的更準
  • post-retrieval 設計是否能提高回答品質
  • RAG 相比純生成模型在攻擊調查中是否更可靠

這篇論文的重點不只是 RAG,而是「怎麼用好 RAG」

如果只看標題,你可能會以為這篇只是再做一個「RAG 套在資安」的案例。但實際上,它更重要的地方在於:

  • 它很清楚知道 RAG 不是萬靈丹
  • 它很重視 retriever 與 post-retrieval quality
  • 它把上下文選擇與 prompt augmentation 當成真正的設計核心

這點和很多只做概念展示的 RAG 系統不同。作者很明白地指出:RAG 的成敗,很大程度取決於檢索品質、文件排序方式、上下文壓縮策略,以及知識庫本身的品質。

和一般 LLM 有什麼差別?

如果把 RAGIntel 和一般直接回答問題的 LLM 相比,最大的差別在於:

  • 一般 LLM 主要依賴訓練時學到的靜態知識
  • RAGIntel 會先去查外部知識,再把上下文送進模型

在一般聊天場景中,這差別可能不一定那麼重要;但在資安調查場景中,差別非常大。因為攻擊調查往往需要:

  • 正確的術語對應
  • 最新的威脅知識
  • 有依據的技術推論

這些都不是單靠模型記憶就足夠可靠的。

重點整理

  • 這篇論文提出 RAGIntel,一套用於攻擊調查的 RAG-based LLM 系統。
  • 核心知識庫來自 MITRE ATT&CK
  • 系統採用 hybrid retrieval,結合 dense 與 sparse retrieval。
  • 檢索後還會做 rerankingcompression,提高上下文品質。
  • 作者用 339 個攻擊調查問題與 RAGAS 進行評估。
  • 研究重點不是只證明 RAG 可用,而是證明「經過良好設計的 RAG」能比 standalone LLM 更可靠。

Takeaway

這篇論文最值得記住的一點,是它清楚說明了:在 CTI 與攻擊調查場景中,真正關鍵的不只是 LLM 本身,而是 LLM 是否能建立在高品質、可追溯、可更新的外部知識基礎上

RAGIntel 告訴我們,若想讓 LLM 真正進入資安分析流程,單靠模型語言能力還不夠,還必須把檢索、排序、壓縮與知識庫設計一起做好。換句話說,這篇論文真正展示的,不是「LLM 很強」,而是「當 LLM 被放進一個設計得當的 RAG 架構裡,它才可能成為可信的攻擊調查工具」。

免責聲明

本文由 AI 整理與撰寫,內容主要依據公開論文、技術文件與可取得之研究資料進行彙整、解讀與摘要。儘管已盡力確保內容之完整性與可讀性,仍可能因模型理解限制、資料來源差異或語意轉譯過程而存在疏漏、不精確或更新延遲之處。本文內容僅供研究交流與知識分享參考,實際技術細節、實驗設定與最終結論,仍應以原始論文、官方文件及作者公開資料為準。

You may also like