RAGIntel 論文閱讀分析：用 RAG 與大型語言模型做攻擊調查

2026 年 4 月 6 日

論文基本資訊

論文標題：LLM-powered threat intelligence: a retrieval-augmented generation approach for cyber attack investigation
來源：PeerJ Computer Science
主題：CTI、RAG、LLM、攻擊調查、自動化威脅分析
論文頁面：https://peerj.com/articles/cs-3371/

LLM-powered threat intelligence: a retrieval-augmented generation approach for cyber attack investigation 這篇論文聚焦在一個非常實際的問題：當資安團隊面對大量異質、快速變化、且彼此分散的 CTI 資料時，是否能透過 大型語言模型（LLM） 加上 Retrieval-Augmented Generation（RAG），來提升攻擊調查與威脅分析的效率與準確性。

這篇研究的切入點很清楚。作者認為，光靠 LLM 並不足以支撐可靠的攻擊調查，因為 LLM 可能出現幻覺、知識過時，或誤解高度技術性的安全內容。因此，他們不是直接把 CTI 問題丟給 LLM，而是設計了一套 RAG-based LLM 系統 RAGIntel，讓模型在回答攻擊調查問題時，能先從外部威脅知識庫中找出相關內容，再根據這些內容產生更有依據的回應。

研究問題：這篇論文想解決什麼？

攻擊調查的本質，是從零散的威脅情資中推論攻擊者的工具、技術、TTP、可能目標，甚至進一步嘗試做歸因。問題在於，CTI 本身有幾個先天困難：

資料來源很多，而且格式不一致
不同資料之間存在語意差異與時間差
內容複雜且高度技術化
手動分析非常耗時

雖然 LLM 看起來很適合處理這類文字分析任務，但作者也清楚指出它的限制：

容易產生 hallucination
模型知識可能過時
對技術內容可能理解錯誤
若直接拿來做攻擊調查，可能產生不可靠的威脅判斷

因此，這篇論文要回答的核心問題是：能否透過 RAG 架構，把外部 CTI 知識庫與 LLM 結合，降低幻覺與知識過時問題，讓攻擊調查回應更準確、更有根據？

方法概觀：RAGIntel 是怎麼設計的？

作者提出的系統名稱是 RAGIntel。整體概念不複雜，但設計很務實：先建立一個涵蓋 CTI 知識的外部知識庫，再用混合式檢索、重排序與壓縮等後處理機制，替 LLM 找出最相關的上下文，最後再由 LLM 生成回應。

整體流程可以整理成：

Attack investigation query
        ↓
Hybrid retrieval from CTI knowledge base
        ↓
Reranking of retrieved contexts
        ↓
Context compression
        ↓
Top relevant documents selected
        ↓
Prompt augmentation
        ↓
LLM-generated investigation response

也就是說，這篇論文的重點不只是「用 RAG」，而是它很認真地處理了 RAG 裡最重要的一段：如何把真正有用的資料找出來，再交給 LLM。

知識庫用的是什麼？

RAGIntel 的知識庫建立在 MITRE ATT&CK 之上。作者將其視為一個公開、結構化且足夠實用的威脅知識來源，涵蓋：

adversary tools
software
campaigns
tactics
techniques
mitigations

這種選擇很合理，因為 ATT&CK 在 CTI 與攻擊分析中本來就是重要知識基礎，能為 RAG 提供一個相對穩定、可信且可查詢的外部知識庫。

Hybrid Retrieval：為什麼不能只靠單一檢索器？

RAGIntel 的一個技術重點，是使用 hybrid retrieval。作者沒有只用 dense retrieval 或只用 sparse retrieval，而是把兩者結合起來。

這樣做的原因很直接：

sparse retrieval 對明確關鍵詞與詞面比對很有效
dense retrieval 較能抓到語意相似性

在 CTI 這種技術詞彙密集、但又常有語意變化的領域中，單用其中一種都可能遺漏關鍵資訊。混合式檢索可以兼顧關鍵字與語意層次，因此比單一路線更穩。

Post-retrieval Strategies：這篇論文真正的細節在這裡

這篇論文最值得注意的地方之一，是作者沒有把檢索完成就交給 LLM，而是做了兩層 post-retrieval 處理：

reranking
compression

1. Reranking

檢索器先抓回一批候選文件後，系統會再重新排序，讓最相關的內容排到前面。這一步很重要，因為即使檢索成功，文件排序若不夠準，真正關鍵的內容仍可能被埋沒。

2. Compression

接著，系統會對檢索內容做壓縮，保留更精簡但仍保有資訊量的內容。這樣做有兩個明顯好處：

減少 prompt 太長造成的雜訊
讓 LLM 更聚焦在真正關鍵的上下文

作者最後會從 top 10 檢索結果中進一步縮減，只保留最相關的幾份文件，作為最終的 prompt augmentation 內容。

RAG 為什麼特別適合攻擊調查？

作者整理了 RAG 在 CTI 與攻擊調查中的幾個優勢：

降低 hallucination：因為回應建立在檢索到的外部知識上
減少知識過時問題：知識庫可以更新，不必一直重訓模型
提升技術上下文理解：透過 ATT&CK 等專業資料補足模型的領域知識
更適合高準確度任務：像攻擊調查這種不能亂猜的場景

這也是這篇論文很有代表性的地方。它不是把 RAG 當潮流關鍵字，而是真的把 RAG 的優勢放進一個需要可靠答案的資安場景裡測試。

評估方式：作者怎麼驗證 RAGIntel？

根據論文內容，RAGIntel 的評估使用了 339 個攻擊調查相關查詢，資料來自不同 benchmark，並使用 RAGAS 作為評估框架。

這代表作者不是只做少量示範，而是使用一組相對完整的攻擊調查問題集來衡量系統表現。除此之外，他們也將 RAGIntel 與 standalone LLM 進行比較，以檢驗：

加上 retrieval 後是否真的更準
post-retrieval 設計是否能提高回答品質
RAG 相比純生成模型在攻擊調查中是否更可靠

這篇論文的重點不只是 RAG，而是「怎麼用好 RAG」

如果只看標題，你可能會以為這篇只是再做一個「RAG 套在資安」的案例。但實際上，它更重要的地方在於：

它很清楚知道 RAG 不是萬靈丹
它很重視 retriever 與 post-retrieval quality
它把上下文選擇與 prompt augmentation 當成真正的設計核心

這點和很多只做概念展示的 RAG 系統不同。作者很明白地指出：RAG 的成敗，很大程度取決於檢索品質、文件排序方式、上下文壓縮策略，以及知識庫本身的品質。

和一般 LLM 有什麼差別？

如果把 RAGIntel 和一般直接回答問題的 LLM 相比，最大的差別在於：

一般 LLM 主要依賴訓練時學到的靜態知識
RAGIntel 會先去查外部知識，再把上下文送進模型

在一般聊天場景中，這差別可能不一定那麼重要；但在資安調查場景中，差別非常大。因為攻擊調查往往需要：

正確的術語對應
最新的威脅知識
有依據的技術推論

這些都不是單靠模型記憶就足夠可靠的。

重點整理

這篇論文提出 RAGIntel，一套用於攻擊調查的 RAG-based LLM 系統。
核心知識庫來自 MITRE ATT&CK。
系統採用 hybrid retrieval，結合 dense 與 sparse retrieval。
檢索後還會做 reranking 與 compression，提高上下文品質。
作者用 339 個攻擊調查問題與 RAGAS 進行評估。
研究重點不是只證明 RAG 可用，而是證明「經過良好設計的 RAG」能比 standalone LLM 更可靠。

Takeaway

這篇論文最值得記住的一點，是它清楚說明了：在 CTI 與攻擊調查場景中，真正關鍵的不只是 LLM 本身，而是 LLM 是否能建立在高品質、可追溯、可更新的外部知識基礎上。

RAGIntel 告訴我們，若想讓 LLM 真正進入資安分析流程，單靠模型語言能力還不夠，還必須把檢索、排序、壓縮與知識庫設計一起做好。換句話說，這篇論文真正展示的，不是「LLM 很強」，而是「當 LLM 被放進一個設計得當的 RAG 架構裡，它才可能成為可信的攻擊調查工具」。

免責聲明

本文由 AI 整理與撰寫，內容主要依據公開論文、技術文件與可取得之研究資料進行彙整、解讀與摘要。儘管已盡力確保內容之完整性與可讀性，仍可能因模型理解限制、資料來源差異或語意轉譯過程而存在疏漏、不精確或更新延遲之處。本文內容僅供研究交流與知識分享參考，實際技術細節、實驗設定與最終結論，仍應以原始論文、官方文件及作者公開資料為準。

RAGIntel 論文閱讀分析：用 RAG 與大型語言模型做攻擊調查

論文基本資訊

研究問題：這篇論文想解決什麼？

方法概觀：RAGIntel 是怎麼設計的？

知識庫用的是什麼？

Hybrid Retrieval：為什麼不能只靠單一檢索器？

Post-retrieval Strategies：這篇論文真正的細節在這裡

1. Reranking

2. Compression

RAG 為什麼特別適合攻擊調查？

評估方式：作者怎麼驗證 RAGIntel？

這篇論文的重點不只是 RAG，而是「怎麼用好 RAG」

和一般 LLM 有什麼差別？

重點整理

Takeaway

免責聲明

發佈留言取消回覆

You may also like

近期文章

廣告

文章分類

近期留言

論文基本資訊

研究問題：這篇論文想解決什麼？

方法概觀：RAGIntel 是怎麼設計的？

知識庫用的是什麼？

Hybrid Retrieval：為什麼不能只靠單一檢索器？

Post-retrieval Strategies：這篇論文真正的細節在這裡

1. Reranking

2. Compression

RAG 為什麼特別適合攻擊調查？

評估方式：作者怎麼驗證 RAGIntel？

這篇論文的重點不只是 RAG，而是「怎麼用好 RAG」

和一般 LLM 有什麼差別？

重點整理

Takeaway

免責聲明

發佈留言 取消回覆

You may also like

XSS 論文閱讀分析：很多 AI 生成攻擊樣本真正卡住的，不是變得不夠花，而是根本沒有真的還能打

H-TechniqueRAG 論文閱讀分析：當 ATT&CK 本來就是階層知識，平面的 RAG 檢索從一開始就走錯了路

近期文章

廣告

文章分類

近期留言

發佈留言取消回覆