CTIArena 論文閱讀分析：用 benchmark 檢驗 LLM 是否真的懂 CTI

2026 年 4 月 6 日

論文基本資訊

論文標題：CTIArena: Benchmarking LLM Knowledge and Reasoning Across Heterogeneous Cyber Threat Intelligence
作者：Yutong Cheng 等
來源：arXiv
年份：2025
論文頁面：https://arxiv.org/abs/2510.11974
主題：CTI、LLM benchmark、RAG、knowledge augmentation、ATT&CK、CVE/CWE/CAPEC

CTIArena 這篇論文不是在做新的 CTI 抽取模型，也不是單純再做一個 RAG demo。它真正要解決的，是目前資安圈把大型語言模型拿來做 Cyber Threat Intelligence（CTI）分析 時，一直缺一個很像樣的問題：到底要怎麼系統性評估 LLM 在 CTI 任務上的能力？

作者的觀察很準：很多人都在談 LLM 可以協助威脅情報分析，但過去 benchmark 往往有三個限制：只測少數任務、只做 closed-book 問答、而且只看單一來源。這跟真實 SOC 或 CTI 分析場景其實差很遠。現實世界裡，分析師要同時對照 CVE、CWE、CAPEC、MITRE ATT&CK，再去串接廠商報告、攻擊活動敘事、惡意程式演化與 threat actor alias，這本來就是一個 多來源、異質、需要推理與對齊 的問題。

所以這篇論文的重要性，不在於它讓某個模型變更強，而在於它提供了一套比較貼近實務的 CTI 測試場，讓我們能更清楚地看見：LLM 到底卡在哪裡、RAG 到底幫到多少、什麼樣的 security-specific augmentation 才真的有用。

研究問題：這篇論文在問什麼？

作者的核心研究問題可以濃縮成一句話：

LLM 能不能真正理解並推理 heterogeneous、multi-source 的 CTI 知識？如果加上針對 CTI 設計的知識增強方法，效果會不會明顯提升？

這個問題很值得問，因為 CTI 不是普通文本任務。它同時混合了：

結構化知識：像 CVE、CWE、CAPEC、MITRE ATT&CK
非結構化知識：像廠商 threat reports、部落格、調查報告
跨來源映射：例如把報告中的攻擊行為映射到 ATT&CK technique，或把弱點描述對應到 CWE

也就是說，LLM 在 CTI 裡不是只要「懂語言」就好，它還要會做：

知識對齊
跨來源整合
別名消解
弱點／技術／行為的語意映射
從分散證據中重建 campaign、actor profile 或 malware lineage

這也正是作者設計 CTIArena 的出發點。

CTIArena 做了什麼？

CTIArena 是一個專門拿來評估 LLM 在 CTI 任務上表現的 benchmark。它最重要的特色有三個：

任務範圍比較完整：不是只測 1–4 個小任務，而是整理成 3 大類、9 個任務
強調 knowledge-augmented setting：不只測 closed-book，也測 RAG 與 security-specific retrieval
強調 multi-source CTI：不只看單一資料源，而是逼模型跨 structured 與 unstructured intelligence 做整合

整個 benchmark 最後包含 691 組 QA pairs，分成：

371 組 structured 任務
150 組 unstructured 任務
170 組 hybrid 任務

這個數量在 CTI benchmark 裡已經不算小，而且作者不是純手工慢慢編，而是用一個 LLM + human 協作的資料建構流程 去擴充規模，同時盡量維持品質。

任務設計：9 個 CTI 任務到底在測什麼？

這篇論文最值得看的部分之一，就是它把 CTI 分析工作整理得相當清楚。

一、Structured CTI Reasoning

這一類任務主要在測 LLM 能不能在 CVE、CWE、CAPEC、ATT&CK 這些結構化知識框架之間做映射與推理。

CTI-RCM（Root Cause Mapping）：把 CVE 對應到根本弱點 CWE
CTI-WIM（Weakness Instantiation Mapping）：從 CWE 反推有哪些 CVE 實例化了它
CTI-ATD（Attack Technique Derivation）：把 CAPEC 攻擊模式對應到 ATT&CK technique
CTI-ESD（Exploitation Surface Discovery）：把 CWE 對應到 CAPEC，理解某個弱點常見的 exploitation pattern

這一類任務比較像「知識映射」。它看似簡單，但如果模型沒有正確 external knowledge，其實很容易亂答。

二、Threat Report Understanding

這一類任務轉向非結構化 threat report，測的是模型能不能從多篇報告中整合出高層次理解。

CTI-CSC（Campaign Storyline Construction）：重建 campaign 脈絡，例如目標產業、地區、活動流程
CTI-TAP（Threat Actor Profiling）：重建 threat actor 的 profile、別名、TTP、工具與目標
CTI-MLA（Malware Lineage Analysis）：分析 malware family 的變種與演化脈絡

這類任務更接近實際 CTI 分析工作，因為現場分析師本來就很少只看單篇報告，而是會把不同來源的敘事拼起來。

三、Structured + Unstructured Hybrid Mapping

這一類最貼近「把自然語言報告對接到標準情資框架」的實務需求。

CTI-ATA（Attack Technique Attribution）：把報告裡描述的攻擊行為映射到 ATT&CK technique
CTI-VCA（Vulnerability Catalog Attribution）：把報告裡的弱點描述映射到 CWE 類別

如果你在做 SOC、自動標註、TI ingestion、告警 enrichment，這兩類任務其實非常實用。因為很多流程最後都要把散亂敘事轉成可搜尋、可比對、可統計的標準框架。

資料集怎麼建？這篇論文的方法其實很務實

作者知道純人工標註很慢，但純 LLM 生成又容易 hallucinate，所以採用三階段流程：

Seed correlation annotation：先從 authoritative source 建立可靠的對齊關係，例如 CVE→CWE、CWE→CAPEC、CAPEC→ATT&CK，以及 blog 到 framework 的對應
Factually-grounded QA synthesis：再用 task-specific template 把這些已知對齊關係轉成 QA
LLM-human collaborative curation：先讓 LLM judge 做第一輪品質過濾，再由資安實務人員交叉驗證、最後資深 annotator 審核

這套流程的優點是，它不是讓 LLM 憑空編題目，而是把 LLM 放在比較安全的位置：根據已知 ground truth 做格式化擴增，然後再交由人類把關。這比很多只靠 prompt 亂生資料的做法可靠得多。

作者比較了哪些模型？

這篇論文總共測了 10 個 LLM，包含 open-source 與 proprietary：

Open-source：LLaMA-3-405B、LLaMA-3-8B、Phi-4、Qwen-3-235B
Proprietary：Claude-3.5-Haiku、Claude-Sonnet-4、Gemini-2.5-Flash、Gemini-2.5-Pro、GPT-4o、GPT-5

評估設定也不是只有 closed-book，而是依照任務型態做不同 augmentation：

Structured 任務：closed-book + inference-time knowledge injection
Hybrid 任務：closed-book + vanilla RAG + query-expanded RAG
Unstructured 任務：vanilla RAG + CSKG-guided RAG

這裡最有意思的是，作者沒有把 RAG 當萬靈丹，而是承認不同 CTI 任務需要不同 retrieval 策略。這一點很實際。

核心結果一：Structured CTI 任務，沒知識就幾乎不行

這篇論文最醒腦的一個結論是：在 structured CTI 任務上，closed-book 幾乎沒什麼可信度。

像 RCM、WIM、ATD、ESD 這些任務，在 closed-book 設定下，多數模型表現都很差；但一旦把正確的 authoritative entry 直接注入 prompt，幾乎所有模型分數都逼近滿分。這代表：

問題不是模型完全不會推理
真正問題是模型腦中沒有可靠、完整、最新的 security enumeration 知識
一旦 reference 給對，這些 task 的推理難度其實不高

這很符合實務直覺。像 CVE↔CWE、CAPEC↔ATT&CK 這種映射，本來就偏向 長尾知識對應問題，不是靠參數記憶就能穩定答對的東西。

所以如果你的產品想把 LLM 拿去做這類 mapping，結論很清楚：別期待模型背下來，請把權威知識庫接進來。

核心結果二：Hybrid 任務最能看出 retrieval 設計好不好

Hybrid 任務是這篇論文裡我覺得最有價值的部分之一，因為它很貼近實務：你不是只要找資料，而是要把報告裡的描述正確映射到標準 taxonomy。

結果顯示，query-expanded RAG 比 vanilla RAG 穩定更好，尤其在比較強的模型上更明顯。作者的想法是先把敘事型 query 拆成更細的 CTI 行為元素，例如 tactic、technique、affected component、weakness symptom，再分別檢索與整合。

這背後的道理其實很簡單：自然語言敘事常常很繞，但 ATT&CK 或 CWE 的概念是被標準化過的。如果你不先做 decomposition，embedding 很可能只抓到「字很像」而不是「概念真的對」。

論文裡像 GPT-5 在 hybrid task 上就有很明顯提升：

ATA：從 0.742 提升到 0.900
VCA：從 0.600 提升到 0.760

這說明了一件事：CTI 場景的 RAG 不能只靠通用語意相似度，domain-specific query reformulation 很重要。

核心結果三：Unstructured 任務最難，因為真正難點是跨報告整合

對很多人來說，RAG 最大的直覺是「把相關文件撈回來就好了」。但這篇論文很清楚地告訴你：在 threat report 類任務裡，檢索只是前菜，真正難的是 synthesis。

像 campaign reconstruction、actor profiling、malware lineage analysis 這些任務，困難點包括：

不同報告用不同名字描述同一 threat actor
不同廠商對同一 malware variant 的敘述粒度不同
證據分散在多篇報告中，還有時間順序問題
不是每篇都直接講明白，需要做 cross-report correlation

因此作者提出的 CSKG-guided RAG，比純 embedding similarity 更合理。它不是只看語意相似度，而是透過 Cyber Security Knowledge Graph 裡的實體重疊去找更有機會相關的文件。

論文結果顯示，這種 entity-centric retrieval 在許多 unstructured 任務上確實優於 vanilla RAG。不過即使如此，這一類任務的分數仍然明顯低於 structured task，代表 跨報告知識整合仍然是目前 LLM 在 CTI 裡最脆弱的一段。

錯誤分析：這篇論文講得很實在

我很喜歡這篇論文的 error analysis，因為它不是只說「模型還有待改進」，而是真的拆出幾種在 CTI 場景裡很常見的失敗模式。

1. Semantic drift

有些檢索結果表面上很像，但其實對錯概念。模型看到「字很像」的證據，就被帶偏。例如在 VCA 任務中，文本提到的實際弱點和檢索回來的密碼政策類文件有語意接近之處，最後卻把 CWE 分錯。這就是典型的 semantic drift。

這對 CTI 系統是很危險的，因為最後看起來像有根有據，實際上 grounding 已經歪了。

2. Retrieved but not used

另一種錯誤更微妙：系統其實找到了正確證據，但較小的模型沒有好好利用，反而回去依賴自己腦中舊有或錯誤的聯想。也就是說，檢索成功不等於推理成功。

這點對產品設計很重要。你不能只看 recall 或 top-k 命中率，還要看模型是否真的會用 retrieved evidence 修正答案。

3. 較弱模型不一定吃得下更複雜的 augmentation

query expansion 或 decomposition 對強模型常常有幫助，但小模型有時反而會因為指令跟不上而把 query 拆壞，造成更糟的 retrieval。這意味著：augmentation 策略不能只看理論上更聰明，還要看目標模型是否有能力駕馭。

4. Unsupported correctness

有些案例裡，模型答案剛好答對，但它宣稱引用的 retrieved evidence 其實並沒有真正支持那個答案。這在 CTI 場景很麻煩，因為 analyst 需要的是可驗證的理由，而不是剛好猜中。

換句話說，答案正確不等於 reasoning trustworthy。

這篇論文對實務有什麼啟發？

如果你在做 CTI pipeline、SOC copilot、threat report ingestion、ATT&CK mapping 或 vulnerability enrichment，這篇論文的實務價值很高。我會把它濃縮成幾點：

對 structured CTI，請優先做 authoritative knowledge injection，不要迷信 closed-book
對 hybrid 任務，query decomposition / expansion 很值得做，因為 narrative 與 taxonomy 之間本來就存在語言落差
對 unstructured 任務，實體導向檢索通常比單純 embedding 更有機會有效
評估不只要看 final answer，還要看 grounding 是否可信
小模型不一定能承受複雜 augmentation，部署時要按模型能力調整策略

更直白地說，這篇論文其實在提醒大家：CTI 不是一般問答場景，真正要做得好，系統設計的重要性往往高於單純換更大的模型。

這篇論文的價值與限制

我認為 CTIArena 的價值很明確：

它把 CTI 任務切得比過去 benchmark 更完整
它把 structured / unstructured / hybrid 三種場景放進同一個評估框架
它明確展示了 RAG 與 security-specific retrieval 的差異
它很貼近實務工作流，而不是只做漂亮但脫離場景的 NLP 題目

但它也不是沒有侷限：

目前仍是 benchmark，離真實 SOC 長流程自動化還有距離
資料雖然比過去完整，但仍不足以涵蓋 CTI 全貌
評估中仍大量依賴既有框架與報告資料，對即時新型威脅的泛化能力還要再看
某些 open-ended 任務仍需 judge-based 評分，多少會受評分框架影響

不過整體來說，這些限制不會掩蓋它的貢獻。至少在「如何正經地評估 LLM 是否真的能做 CTI」這件事上，這篇論文已經把門檻拉高了不少。

我的看法

如果把這篇論文放在近期 CTI + AI 研究脈絡裡看，它很像是一個重要的中繼站。前一階段大家在做的是：

抽取 TTP
建 knowledge graph
做 STIX / ATT&CK mapping
做 RAG-based threat analysis

但當這些應用越來越多，下一個必須回答的問題就是：我們到底有沒有一套像樣的尺，能量測這些系統是否真的在幫忙，而不是只是看起來很聰明？

CTIArena 就是在補這個洞。

我尤其認同它傳達的一個核心訊息：在 CTI 場景裡，單靠更大的模型並不夠，關鍵在於能否把權威知識、檢索策略、語意對齊與多來源整合設計好。 這其實也很符合資安工作的本質——你要的是可靠、可驗證、可追溯，而不是只有 fluency。

總結

CTIArena 是一篇很值得讀的 CTI/AI 論文，因為它不是再做一個單點模型，而是把整個問題往前推了一步：建立一個更完整、更多來源、也更貼近真實工作流的 benchmark，讓我們看清楚 LLM 在 CTI 任務上的真實能力邊界。

它給出的答案很明確：

Closed-book LLM 對 structured CTI 很不可靠
Knowledge augmentation 幾乎是必要條件
Hybrid 任務需要 domain-specific query expansion
Unstructured CTI 的最大難點是跨報告整合，而不只是檢索
可信 grounding 比「剛好答對」更重要

如果你正在設計 CTI copilot、threat intelligence assistant、RAG-based SOC workflow，這篇論文很值得拿來當系統設計的參考框架，而不只是當成一篇 benchmark paper 看過就算。

CTIArena 論文閱讀分析：用 benchmark 檢驗 LLM 是否真的懂 CTI

論文基本資訊

研究問題：這篇論文在問什麼？

CTIArena 做了什麼？

任務設計：9 個 CTI 任務到底在測什麼？

一、Structured CTI Reasoning

二、Threat Report Understanding

三、Structured + Unstructured Hybrid Mapping

資料集怎麼建？這篇論文的方法其實很務實

作者比較了哪些模型？

核心結果一：Structured CTI 任務，沒知識就幾乎不行

核心結果二：Hybrid 任務最能看出 retrieval 設計好不好

核心結果三：Unstructured 任務最難，因為真正難點是跨報告整合

錯誤分析：這篇論文講得很實在

1. Semantic drift

2. Retrieved but not used

3. 較弱模型不一定吃得下更複雜的 augmentation

4. Unsupported correctness

這篇論文對實務有什麼啟發？

這篇論文的價值與限制

我的看法

總結

發佈留言取消回覆

You may also like

近期文章

廣告

文章分類

近期留言

論文基本資訊

研究問題：這篇論文在問什麼？

CTIArena 做了什麼？

任務設計：9 個 CTI 任務到底在測什麼？

一、Structured CTI Reasoning

二、Threat Report Understanding

三、Structured + Unstructured Hybrid Mapping

資料集怎麼建？這篇論文的方法其實很務實

作者比較了哪些模型？

核心結果一：Structured CTI 任務，沒知識就幾乎不行

核心結果二：Hybrid 任務最能看出 retrieval 設計好不好

核心結果三：Unstructured 任務最難，因為真正難點是跨報告整合

錯誤分析：這篇論文講得很實在

1. Semantic drift

2. Retrieved but not used

3. 較弱模型不一定吃得下更複雜的 augmentation

4. Unsupported correctness

這篇論文對實務有什麼啟發？

這篇論文的價值與限制

我的看法

總結

發佈留言 取消回覆

You may also like

論文閱讀分析｜Exploring the Role of Large Language Models in Cybersecurity: A Systematic Survey

LRCTI 論文閱讀分析：如何讓 LLM 真的學會驗證 CTI 真偽？

近期文章

廣告

文章分類

近期留言

發佈留言取消回覆