Beyond RAG for CTI 論文閱讀分析：真正卡住情資問答的，往往不是找不到文件，而是關係推理、拒答能力與 runtime 穩定性根本沒被一起設計

2026 年 4 月 17 日

論文基本資訊

論文標題：Beyond RAG for Cyber Threat Intelligence: A Systematic Evaluation of Graph-Based and Agentic Retrieval
作者：Dženan Hamzić、Florian Skopik、Max Landauer、Markus Wurzenberger、Andreas Rauber
年份：2026
來源：arXiv:2604.11419
論文連結：https://arxiv.org/abs/2604.11419
DOI：10.48550/arXiv.2604.11419
主題：CTI、GraphRAG、Knowledge Graph、Agentic Retrieval、Multi-hop QA、Hybrid RAG、LLM Evaluation

如果最近幾篇 sectools.tw 的 CTI / AI 論文一路在談 RAG、知識圖譜、情資抽取、agentic workflow，那這篇 Beyond RAG for Cyber Threat Intelligence 很值得補上，因為它不再只是說「Knowledge Graph 很有用」或「Agentic RAG 比較聰明」，而是直接把幾條現在最常見的 CTI 問答架構放到同一個場上比較：一般向量 RAG、Graph-only RAG、會自我修 query 的 Agentic GraphRAG，以及 graph + text 雙路並行的 HybridRAG，到底誰在什麼題型上真的比較可靠？

這篇最有價值的地方，不是它又發明了一個新名詞，而是它終於把很多人嘴上常講、但很少被系統性驗證的事拆開來看：CTI 問答不是單純的文件檢索問題，因為真正重要的答案常常散落在多篇 threat report、跨好幾個 entity 關係、還夾著時間與因果脈絡；但把它全部結構化成 graph 之後，也不會自動變成萬靈丹，因為 graph pipeline 自己會長出另一批故障模式。

這篇論文想解決什麼？

作者抓得很準：CTI 分析師在做問答時，常問的不是「這篇文件哪一段提到某個字」，而是這種比較像 analyst workflow 的問題：

某個 threat actor 跟哪些 malware、infrastructure、vulnerability 有關？
一組 campaign 的攻擊鏈、目標產業與 TTP 之間有什麼關聯？
不同報告分散提到的實體，能不能被串成同一條有意義的 intelligence path？
如果資料裡根本沒有答案，系統能不能老實說不知道？

傳統 vector RAG 的弱點就在這裡：它擅長找相似文字片段，但不一定擅長把分散在不同文件、不同段落、不同實體之間的關係鏈拼起來。 對 CTI 這種 heavily relational 的領域來說，光靠 top-k chunk similarity，常常會漏掉真正需要的關聯證據。

所以這篇要回答的核心問題很清楚：

當 CTI 問答開始需要 multi-hop relation reasoning、結構化約束與可靠拒答時，GraphRAG、Agentic GraphRAG、HybridRAG 相較於普通 RAG，到底改善了什麼？又引入了哪些新的 operational 風險？

作者比較了四種架構

這篇 paper 最好記的部分，就是它把四條 retrieval 路線講得很清楚：

RAG：標準語意檢索，從 chunked text 裡做向量搜尋，再把片段丟給 LLM 回答。
GRAG：把 CTI text 轉成知識圖譜，問題先翻成 Cypher 查詢，直接走 graph retrieval。
AGRAG：在 GRAG 上再加 critique-and-repair loop，讓系統在 graph query 失敗時自我修正。
HRAG：同時結合 graph query 與 text retrieval，把結構化與非結構化證據一起餵回去。

這個比較設計很重要，因為它不是在比「有沒有 graph」，而是在比四種不同的取捨：

只靠語意相似度
只靠顯式關係結構
在結構檢索上加 agentic 修補
讓 graph 與 text 互相補洞

換句話說，這篇真正要驗的是：CTI assistant 往 graph 化、agent 化之後，可靠性到底是變高，還是只是把 failure mode 從「檢索不到」換成「query 產錯、查空、還很有自信」？

方法設計其實很紮實：不是亂問，而是先把評測地板鋪好

很多 RAG paper 的問題，是 benchmark 不夠乾淨，最後很難知道分數差異到底來自 retrieval 架構，還是資料本身、prompt、題型設計或模型亂數。這篇比較不一樣，它花了不少力氣在 evaluation control 上。

作者做法大致如下：

從 CTINexus dataset 隨機抽 CTI 報告
把非結構化 threat report 轉成 Neo4j property graph
由 graph 中的 Cypher 查詢反推出可驗證的 QA pairs
讓四種 retrieval 架構都基於相同 knowledge base 與相同題目作答
用自動評估 + LLM-as-a-Judge 一起看答案品質與失敗模式

這裡有個很值得記住的設計：問題是從可執行的 Cypher query 反推生成的。 這代表作者盡量確保「正確答案真的存在於共同知識底座裡」，避免一些問答根本不在資料裡、卻硬要系統回答的混亂情況。對比較 retrieval 架構來說，這很關鍵。

資料集怎麼做？

論文總共評估了 3,300 組 CTI question-answer pairs，而且不是單一題型，而是分成五類：

simple：直接事實查找
single-hop：一跳關係問題
multi-hop：需要跨多個 entity / relation 串證據
guided analyst-style questions：更像分析師真的會問的綜合型問題
unanswerable：資料不足時應該拒答的問題

我很喜歡它把 unanswerable 單獨拉出來。因為在 CTI 場景裡，不會拒答的系統，往往比偶爾答錯的系統更危險。 如果 assistant 面對不存在於報告中的 actor 關係、錯誤 campaign linkage、或根本沒被資料支持的推論時，還是硬補一個看起來很順的答案，那就不是單純 QA 小失誤，而是會直接污染 analyst situational awareness。

這篇最重要的主張：Graph grounding 確實有用，但不是全面碾壓

論文結果很值得細看，因為它不是「GraphRAG 全面勝利」那種簡單故事。

作者的核心發現可以濃縮成四句：

Graph grounding 對結構化 factual query 確實明顯有幫助。
Hybrid graph-text retrieval 在multi-hop 問題上最亮眼。
Graph-only pipeline 會引入新的 failure mode，特別是 query generation 與空結果處理。
Agentic query repair 與 hybrid redundancy 讓整體表現比 naïve graph-only 更穩。

其中最值得記的 headline 是：HybridRAG 在 multi-hop 題型上的答案品質，相較 vector RAG 最高可提升 35%。這個結果其實很有 CTI 味道，因為 CTI 問答最麻煩的地方，本來就不是單點事實，而是跨實體、跨文件、跨報告的關係鏈。

也就是說，當問題真的需要把「threat actor → malware → exploited vulnerability → target sector」這類路徑串起來時，光靠相似片段檢索常常不夠；而 graph 結構能把這種顯式關係拉出來，再讓 text 補語義細節，效果就會比單一路線更穩。

但 graph-only 為什麼不夠？

這是我覺得這篇最成熟的地方：它沒有把 graph 神化。

作者明講，純 graph retrieval 會長出幾個很現實的問題：

text-to-Cypher translation error：問題翻錯 query，後面整條都歪掉
schema mismatch：模型用到 graph 裡其實沒有的 label / relation / property
empty-result query：查不到結果時系統不一定會安全收手
overconfident answering on incomplete evidence：資料不全卻回答得很篤定
latency instability：反覆修 query 會讓回應時間抖得很兇

這些都不是 UX 小瑕疵，而是安全相關的 operational failure mode。因為 CTI assistant 不是做聊天，它是在支撐防禦判斷。若系統查不到證據時不肯停、schema 對不上時還硬湊、或在時間敏感場景下 latency 突然暴衝，對 analyst 來說都會變成真風險。

Agentic retrieval 在這裡的角色，不是變聰明，而是補救脆弱性

AGRAG 很有意思的地方在於，它不是拿 agent 當 marketing 詞，而是很務實地用來修 graph pipeline 的弱點。作者讓系統在 graph query 失敗時走 critique-and-repair loop，嘗試修正 Cypher，再重新查詢。

這種 agentic 設計的真正價值，不是「多想一步」，而是：

降低一次 text-to-query 失敗就全盤歸零的 brittle behavior
把 graph retrieval 從 one-shot fragile pipeline，往可恢復流程推進
在結構檢索出錯時，給系統一個自我修補機會

但作者也很誠實：repair loop 雖然能救正確率，卻也會帶來 latency 與 runtime variance。 換句話說，agentic retrieval 不是白送的增益，它比較像是在 correctness 與 runtime predictability 之間重新做工程取捨。

HybridRAG 為什麼最後最平衡？

從結果來看，作者最看好的不是 graph-only，也不是純 agentic graph，而是 HybridRAG。原因其實很好理解：

graph retrieval 提供顯式關係路徑與結構約束
text retrieval 補足 graph 沒抽完整的語義細節
雙路 evidence 互相兜底，降低單一路線失誤的破壞力

對 CTI 來說，這種設計很合理。因為現實中的 threat report 本來就不會被完美抽成 graph；同時，單靠文字檢索又很難穩定支撐跨實體推理。graph 給骨架，text 補血肉，才比較像 analyst 真正需要的 intelligence substrate。

這篇論文對 CTI 實務者的啟示

我覺得這篇對實務最重要的提醒有五個：

不要把 CTI QA 當一般文件問答：它本質上就是關係推理與證據鏈管理問題。
GraphRAG 不是自動更安全：它會降低某些 hallucination，但也會新增 query / schema / latency 失敗模式。
拒答能力要被當成一級指標：在 CTI 場景裡，unsafe abstention 失敗非常傷。
Agentic retrieval 的意義在恢復力，不只是能力：它更像 runtime repair layer，而不只是更 fancy 的 reasoning。
Hybrid 架構更接近 production reality：因為真實 CTI 知識永遠同時活在結構化與非結構化世界裡。

這也讓我想到，很多團隊現在在做 CTI assistant 時，會很快跳去問「我們要不要上 GraphRAG？」但這篇真正提示的是另一件事：你該先問的是，你最怕的是哪種錯。

怕漏掉 multi-hop 關係？graph 很重要。
怕 query brittle、schema 容易漂？agentic repair 要補上。
怕資料抽不全、又怕回答空洞？hybrid 比較現實。
怕 system 明明不知道還亂講？就得把 abstention 當核心治理目標。

限制也很明顯

當然，這篇不是沒有保留。

它的 graph 是從 CTI text 自動抽出來的，所以結果仍受上游 extraction quality 影響。
雖然題型設計很完整，但仍屬 controlled evaluation，不是直接在真實 SOC / CTI desk 長期部署。
guided analyst-style 問題比純 schema-derived QA 更接近現實，但離真正 analyst 任務還是有距離。
它已經談到 poisoning 與 graph robustness 文獻，但這篇自己主要仍在評估 retrieval / runtime，而不是完整 adversarial defense。

不過這些限制並不削弱它的價值，反而讓它更像一篇把 CTI GraphRAG 設計空間整理清楚的地圖 paper：告訴你不同架構各自救了什麼，又會在哪裡摔倒。

重點整理

這篇論文系統性比較 RAG、GRAG、AGRAG、HRAG 四種 CTI 問答架構。
評估基於 3,300 組 CTI QA pairs，涵蓋 simple、single-hop、multi-hop、guided、unanswerable 五類題型。
Graph grounding 對結構化事實查找有明顯幫助。
HybridRAG 在 multi-hop 題型上相較 vector RAG 最高可提升 35% 的答案品質。
純 graph pipeline 會引入text-to-Cypher 錯誤、schema mismatch、空結果高自信回答、延遲不穩等新風險。
Agentic query repair 可以提高 graph retrieval 的恢復力，但會增加 runtime 成本與 latency variance。
對 CTI assistant 而言，拒答能力與 runtime 穩定性不該被當成附屬指標，而是核心安全屬性。

Takeaway

Beyond RAG for CTI 真正提醒我們的，不是「GraphRAG 比 RAG 高級」，而是：在 CTI 這種 heavily relational 的場景裡，檢索架構的核心問題從來不只是找不找得到文件，而是能不能把關係鏈接對、在缺證據時肯停、以及在 runtime 出錯時不把 analyst 一起帶偏。

如果要為 sectools.tw 的讀者再翻成更直白的一句話，那就是：未來好用的 CTI assistant，大概不會是單一路線的純向量 RAG，也不會是迷信 graph 的單線神話，而更可能是有 graph grounding、有 text fallback、有 agentic repair、也有明確 abstention policy 的混合式 intelligence system。

免責聲明

本文由 AI 產生、整理與撰寫，內容主要依據公開論文、技術文件與可取得之研究資料進行彙整、解讀與摘要。儘管已盡力確保內容之完整性與可讀性，仍可能因模型理解限制、資料來源差異或語意轉譯過程而存在疏漏、不精確或更新延遲之處。本文內容僅供研究交流與知識分享參考，實際技術細節、實驗設定與最終結論，仍應以原始論文、官方文件及作者公開資料為準。

Beyond RAG for CTI 論文閱讀分析：真正卡住情資問答的，往往不是找不到文件，而是關係推理、拒答能力與 runtime 穩定性根本沒被一起設計

論文基本資訊

這篇論文想解決什麼？

作者比較了四種架構

方法設計其實很紮實：不是亂問，而是先把評測地板鋪好

資料集怎麼做？

這篇最重要的主張：Graph grounding 確實有用，但不是全面碾壓

但 graph-only 為什麼不夠？

Agentic retrieval 在這裡的角色，不是變聰明，而是補救脆弱性

HybridRAG 為什麼最後最平衡？

這篇論文對 CTI 實務者的啟示

限制也很明顯

重點整理

Takeaway

免責聲明

發佈留言取消回覆

You may also like

近期文章

廣告

文章分類

近期留言

論文基本資訊

這篇論文想解決什麼？

作者比較了四種架構

方法設計其實很紮實：不是亂問，而是先把評測地板鋪好

資料集怎麼做？

這篇最重要的主張：Graph grounding 確實有用，但不是全面碾壓

但 graph-only 為什麼不夠？

Agentic retrieval 在這裡的角色，不是變聰明，而是補救脆弱性

HybridRAG 為什麼最後最平衡？

這篇論文對 CTI 實務者的啟示

限制也很明顯

重點整理

Takeaway

免責聲明

發佈留言 取消回覆

You may also like

PAuth 論文閱讀分析：真正危險的不是 Agent 會不會被帶偏，而是它常常一開始就拿著比任務更多的權限

MultiKG 論文閱讀分析：整合多來源威脅情報建構高品質攻擊知識圖譜

近期文章

廣告

文章分類

近期留言

發佈留言取消回覆