CTIArena 論文閱讀分析:用 benchmark 檢驗 LLM 是否真的懂 CTI

論文基本資訊

  • 論文標題:CTIArena: Benchmarking LLM Knowledge and Reasoning Across Heterogeneous Cyber Threat Intelligence
  • 作者:Yutong Cheng 等
  • 來源:arXiv
  • 年份:2025
  • 論文頁面:https://arxiv.org/abs/2510.11974
  • 主題:CTI、LLM benchmark、RAG、knowledge augmentation、ATT&CK、CVE/CWE/CAPEC

CTIArena 這篇論文不是在做新的 CTI 抽取模型,也不是單純再做一個 RAG demo。它真正要解決的,是目前資安圈把大型語言模型拿來做 Cyber Threat Intelligence(CTI)分析 時,一直缺一個很像樣的問題:到底要怎麼系統性評估 LLM 在 CTI 任務上的能力?

作者的觀察很準:很多人都在談 LLM 可以協助威脅情報分析,但過去 benchmark 往往有三個限制:只測少數任務、只做 closed-book 問答、而且只看單一來源。這跟真實 SOC 或 CTI 分析場景其實差很遠。現實世界裡,分析師要同時對照 CVE、CWE、CAPEC、MITRE ATT&CK,再去串接廠商報告、攻擊活動敘事、惡意程式演化與 threat actor alias,這本來就是一個 多來源、異質、需要推理與對齊 的問題。

所以這篇論文的重要性,不在於它讓某個模型變更強,而在於它提供了一套比較貼近實務的 CTI 測試場,讓我們能更清楚地看見:LLM 到底卡在哪裡、RAG 到底幫到多少、什麼樣的 security-specific augmentation 才真的有用。

研究問題:這篇論文在問什麼?

作者的核心研究問題可以濃縮成一句話:

LLM 能不能真正理解並推理 heterogeneous、multi-source 的 CTI 知識?如果加上針對 CTI 設計的知識增強方法,效果會不會明顯提升?

這個問題很值得問,因為 CTI 不是普通文本任務。它同時混合了:

  • 結構化知識:像 CVE、CWE、CAPEC、MITRE ATT&CK
  • 非結構化知識:像廠商 threat reports、部落格、調查報告
  • 跨來源映射:例如把報告中的攻擊行為映射到 ATT&CK technique,或把弱點描述對應到 CWE

也就是說,LLM 在 CTI 裡不是只要「懂語言」就好,它還要會做:

  • 知識對齊
  • 跨來源整合
  • 別名消解
  • 弱點/技術/行為的語意映射
  • 從分散證據中重建 campaign、actor profile 或 malware lineage

這也正是作者設計 CTIArena 的出發點。

CTIArena 做了什麼?

CTIArena 是一個專門拿來評估 LLM 在 CTI 任務上表現的 benchmark。它最重要的特色有三個:

  • 任務範圍比較完整:不是只測 1–4 個小任務,而是整理成 3 大類、9 個任務
  • 強調 knowledge-augmented setting:不只測 closed-book,也測 RAG 與 security-specific retrieval
  • 強調 multi-source CTI:不只看單一資料源,而是逼模型跨 structured 與 unstructured intelligence 做整合

整個 benchmark 最後包含 691 組 QA pairs,分成:

  • 371 組 structured 任務
  • 150 組 unstructured 任務
  • 170 組 hybrid 任務

這個數量在 CTI benchmark 裡已經不算小,而且作者不是純手工慢慢編,而是用一個 LLM + human 協作的資料建構流程 去擴充規模,同時盡量維持品質。

任務設計:9 個 CTI 任務到底在測什麼?

這篇論文最值得看的部分之一,就是它把 CTI 分析工作整理得相當清楚。

一、Structured CTI Reasoning

這一類任務主要在測 LLM 能不能在 CVE、CWE、CAPEC、ATT&CK 這些結構化知識框架之間做映射與推理。

  • CTI-RCM(Root Cause Mapping):把 CVE 對應到根本弱點 CWE
  • CTI-WIM(Weakness Instantiation Mapping):從 CWE 反推有哪些 CVE 實例化了它
  • CTI-ATD(Attack Technique Derivation):把 CAPEC 攻擊模式對應到 ATT&CK technique
  • CTI-ESD(Exploitation Surface Discovery):把 CWE 對應到 CAPEC,理解某個弱點常見的 exploitation pattern

這一類任務比較像「知識映射」。它看似簡單,但如果模型沒有正確 external knowledge,其實很容易亂答。

二、Threat Report Understanding

這一類任務轉向非結構化 threat report,測的是模型能不能從多篇報告中整合出高層次理解。

  • CTI-CSC(Campaign Storyline Construction):重建 campaign 脈絡,例如目標產業、地區、活動流程
  • CTI-TAP(Threat Actor Profiling):重建 threat actor 的 profile、別名、TTP、工具與目標
  • CTI-MLA(Malware Lineage Analysis):分析 malware family 的變種與演化脈絡

這類任務更接近實際 CTI 分析工作,因為現場分析師本來就很少只看單篇報告,而是會把不同來源的敘事拼起來。

三、Structured + Unstructured Hybrid Mapping

這一類最貼近「把自然語言報告對接到標準情資框架」的實務需求。

  • CTI-ATA(Attack Technique Attribution):把報告裡描述的攻擊行為映射到 ATT&CK technique
  • CTI-VCA(Vulnerability Catalog Attribution):把報告裡的弱點描述映射到 CWE 類別

如果你在做 SOC、自動標註、TI ingestion、告警 enrichment,這兩類任務其實非常實用。因為很多流程最後都要把散亂敘事轉成可搜尋、可比對、可統計的標準框架。

資料集怎麼建?這篇論文的方法其實很務實

作者知道純人工標註很慢,但純 LLM 生成又容易 hallucinate,所以採用三階段流程:

  1. Seed correlation annotation:先從 authoritative source 建立可靠的對齊關係,例如 CVE→CWE、CWE→CAPEC、CAPEC→ATT&CK,以及 blog 到 framework 的對應
  2. Factually-grounded QA synthesis:再用 task-specific template 把這些已知對齊關係轉成 QA
  3. LLM-human collaborative curation:先讓 LLM judge 做第一輪品質過濾,再由資安實務人員交叉驗證、最後資深 annotator 審核

這套流程的優點是,它不是讓 LLM 憑空編題目,而是把 LLM 放在比較安全的位置:根據已知 ground truth 做格式化擴增,然後再交由人類把關。這比很多只靠 prompt 亂生資料的做法可靠得多。

作者比較了哪些模型?

這篇論文總共測了 10 個 LLM,包含 open-source 與 proprietary:

  • Open-source:LLaMA-3-405B、LLaMA-3-8B、Phi-4、Qwen-3-235B
  • Proprietary:Claude-3.5-Haiku、Claude-Sonnet-4、Gemini-2.5-Flash、Gemini-2.5-Pro、GPT-4o、GPT-5

評估設定也不是只有 closed-book,而是依照任務型態做不同 augmentation:

  • Structured 任務:closed-book + inference-time knowledge injection
  • Hybrid 任務:closed-book + vanilla RAG + query-expanded RAG
  • Unstructured 任務:vanilla RAG + CSKG-guided RAG

這裡最有意思的是,作者沒有把 RAG 當萬靈丹,而是承認不同 CTI 任務需要不同 retrieval 策略。這一點很實際。

核心結果一:Structured CTI 任務,沒知識就幾乎不行

這篇論文最醒腦的一個結論是:在 structured CTI 任務上,closed-book 幾乎沒什麼可信度。

像 RCM、WIM、ATD、ESD 這些任務,在 closed-book 設定下,多數模型表現都很差;但一旦把正確的 authoritative entry 直接注入 prompt,幾乎所有模型分數都逼近滿分。這代表:

  • 問題不是模型完全不會推理
  • 真正問題是模型腦中沒有可靠、完整、最新的 security enumeration 知識
  • 一旦 reference 給對,這些 task 的推理難度其實不高

這很符合實務直覺。像 CVE↔CWE、CAPEC↔ATT&CK 這種映射,本來就偏向 長尾知識對應問題,不是靠參數記憶就能穩定答對的東西。

所以如果你的產品想把 LLM 拿去做這類 mapping,結論很清楚:別期待模型背下來,請把權威知識庫接進來。

核心結果二:Hybrid 任務最能看出 retrieval 設計好不好

Hybrid 任務是這篇論文裡我覺得最有價值的部分之一,因為它很貼近實務:你不是只要找資料,而是要把報告裡的描述正確映射到標準 taxonomy。

結果顯示,query-expanded RAG 比 vanilla RAG 穩定更好,尤其在比較強的模型上更明顯。作者的想法是先把敘事型 query 拆成更細的 CTI 行為元素,例如 tactic、technique、affected component、weakness symptom,再分別檢索與整合。

這背後的道理其實很簡單:自然語言敘事常常很繞,但 ATT&CK 或 CWE 的概念是被標準化過的。如果你不先做 decomposition,embedding 很可能只抓到「字很像」而不是「概念真的對」。

論文裡像 GPT-5 在 hybrid task 上就有很明顯提升:

  • ATA:從 0.742 提升到 0.900
  • VCA:從 0.600 提升到 0.760

這說明了一件事:CTI 場景的 RAG 不能只靠通用語意相似度,domain-specific query reformulation 很重要。

核心結果三:Unstructured 任務最難,因為真正難點是跨報告整合

對很多人來說,RAG 最大的直覺是「把相關文件撈回來就好了」。但這篇論文很清楚地告訴你:在 threat report 類任務裡,檢索只是前菜,真正難的是 synthesis。

像 campaign reconstruction、actor profiling、malware lineage analysis 這些任務,困難點包括:

  • 不同報告用不同名字描述同一 threat actor
  • 不同廠商對同一 malware variant 的敘述粒度不同
  • 證據分散在多篇報告中,還有時間順序問題
  • 不是每篇都直接講明白,需要做 cross-report correlation

因此作者提出的 CSKG-guided RAG,比純 embedding similarity 更合理。它不是只看語意相似度,而是透過 Cyber Security Knowledge Graph 裡的實體重疊去找更有機會相關的文件。

論文結果顯示,這種 entity-centric retrieval 在許多 unstructured 任務上確實優於 vanilla RAG。不過即使如此,這一類任務的分數仍然明顯低於 structured task,代表 跨報告知識整合仍然是目前 LLM 在 CTI 裡最脆弱的一段。

錯誤分析:這篇論文講得很實在

我很喜歡這篇論文的 error analysis,因為它不是只說「模型還有待改進」,而是真的拆出幾種在 CTI 場景裡很常見的失敗模式。

1. Semantic drift

有些檢索結果表面上很像,但其實對錯概念。模型看到「字很像」的證據,就被帶偏。例如在 VCA 任務中,文本提到的實際弱點和檢索回來的密碼政策類文件有語意接近之處,最後卻把 CWE 分錯。這就是典型的 semantic drift。

這對 CTI 系統是很危險的,因為最後看起來像有根有據,實際上 grounding 已經歪了。

2. Retrieved but not used

另一種錯誤更微妙:系統其實找到了正確證據,但較小的模型沒有好好利用,反而回去依賴自己腦中舊有或錯誤的聯想。也就是說,檢索成功不等於推理成功。

這點對產品設計很重要。你不能只看 recall 或 top-k 命中率,還要看模型是否真的會用 retrieved evidence 修正答案。

3. 較弱模型不一定吃得下更複雜的 augmentation

query expansion 或 decomposition 對強模型常常有幫助,但小模型有時反而會因為指令跟不上而把 query 拆壞,造成更糟的 retrieval。這意味著:augmentation 策略不能只看理論上更聰明,還要看目標模型是否有能力駕馭。

4. Unsupported correctness

有些案例裡,模型答案剛好答對,但它宣稱引用的 retrieved evidence 其實並沒有真正支持那個答案。這在 CTI 場景很麻煩,因為 analyst 需要的是可驗證的理由,而不是剛好猜中。

換句話說,答案正確不等於 reasoning trustworthy。

這篇論文對實務有什麼啟發?

如果你在做 CTI pipeline、SOC copilot、threat report ingestion、ATT&CK mapping 或 vulnerability enrichment,這篇論文的實務價值很高。我會把它濃縮成幾點:

  • 對 structured CTI,請優先做 authoritative knowledge injection,不要迷信 closed-book
  • 對 hybrid 任務,query decomposition / expansion 很值得做,因為 narrative 與 taxonomy 之間本來就存在語言落差
  • 對 unstructured 任務,實體導向檢索通常比單純 embedding 更有機會有效
  • 評估不只要看 final answer,還要看 grounding 是否可信
  • 小模型不一定能承受複雜 augmentation,部署時要按模型能力調整策略

更直白地說,這篇論文其實在提醒大家:CTI 不是一般問答場景,真正要做得好,系統設計的重要性往往高於單純換更大的模型。

這篇論文的價值與限制

我認為 CTIArena 的價值很明確:

  • 它把 CTI 任務切得比過去 benchmark 更完整
  • 它把 structured / unstructured / hybrid 三種場景放進同一個評估框架
  • 它明確展示了 RAG 與 security-specific retrieval 的差異
  • 它很貼近實務工作流,而不是只做漂亮但脫離場景的 NLP 題目

但它也不是沒有侷限:

  • 目前仍是 benchmark,離真實 SOC 長流程自動化還有距離
  • 資料雖然比過去完整,但仍不足以涵蓋 CTI 全貌
  • 評估中仍大量依賴既有框架與報告資料,對即時新型威脅的泛化能力還要再看
  • 某些 open-ended 任務仍需 judge-based 評分,多少會受評分框架影響

不過整體來說,這些限制不會掩蓋它的貢獻。至少在「如何正經地評估 LLM 是否真的能做 CTI」這件事上,這篇論文已經把門檻拉高了不少。

我的看法

如果把這篇論文放在近期 CTI + AI 研究脈絡裡看,它很像是一個重要的中繼站。前一階段大家在做的是:

  • 抽取 TTP
  • 建 knowledge graph
  • 做 STIX / ATT&CK mapping
  • 做 RAG-based threat analysis

但當這些應用越來越多,下一個必須回答的問題就是:我們到底有沒有一套像樣的尺,能量測這些系統是否真的在幫忙,而不是只是看起來很聰明?

CTIArena 就是在補這個洞。

我尤其認同它傳達的一個核心訊息:在 CTI 場景裡,單靠更大的模型並不夠,關鍵在於能否把權威知識、檢索策略、語意對齊與多來源整合設計好。 這其實也很符合資安工作的本質——你要的是可靠、可驗證、可追溯,而不是只有 fluency。

總結

CTIArena 是一篇很值得讀的 CTI/AI 論文,因為它不是再做一個單點模型,而是把整個問題往前推了一步:建立一個更完整、更多來源、也更貼近真實工作流的 benchmark,讓我們看清楚 LLM 在 CTI 任務上的真實能力邊界。

它給出的答案很明確:

  • Closed-book LLM 對 structured CTI 很不可靠
  • Knowledge augmentation 幾乎是必要條件
  • Hybrid 任務需要 domain-specific query expansion
  • Unstructured CTI 的最大難點是跨報告整合,而不只是檢索
  • 可信 grounding 比「剛好答對」更重要

如果你正在設計 CTI copilot、threat intelligence assistant、RAG-based SOC workflow,這篇論文很值得拿來當系統設計的參考框架,而不只是當成一篇 benchmark paper 看過就算。

You may also like