CTIBench 論文閱讀分析：系統性評估大型語言模型在 Cyber Threat Intelligence 的能力

2026 年 4 月 6 日

論文基本資訊

論文標題：CTIBench: A Benchmark for Evaluating LLMs in Cyber Threat Intelligence
作者：Dipkamal Bhusal、Md Tanvirul Alam、Le Nguyen、Ashim Mahara、Zachary Lightcap、Rodney Frazier、Romy Fieblinger、Grace Long Torales、Nidhi Rastogi
年份：2024
來源：arXiv:2406.07599v3
論文連結：https://arxiv.org/abs/2406.07599
主題：CTI Benchmark、LLM Evaluation、CVE/CWE、CVSS、Threat Actor Attribution、Cyber Threat Intelligence

這篇 CTIBench 很適合放進 sectools.tw 近期這批 CTI / AI 論文脈絡，因為它不是再做一個新的 agent 系統，也不是再宣稱某個模型能自動做完 SOC 或 attribution；它做的事情更基礎，也更重要：先把「LLM 在 CTI 到底會不會」這件事拆成可以量化評估的 benchmark。

作者的問題意識很直接。大家都在談 LLM 可以讀 threat report、做 vulnerability analysis、甚至幫忙 threat attribution，但如果沒有一套夠貼近 CTI 實務的 benchmark，我們其實很難知道模型到底是在背答案、在做語言匹配，還是真的具備某種程度的 threat reasoning 能力。

這篇論文想解決什麼問題？

作者認為，既有 benchmark 多半有兩個問題：

不是太通用，只能測一般語言理解，無法反映 CTI 任務的專業性
就是太窄，只測資安問答、程式碼安全或特定 extraction task，沒有涵蓋較完整的 CTI cognitive workload

因此 CTIBench 的核心目標，是建立一套專門評估 LLM 在 CTI 領域中 memorization、understanding、problem-solving、reasoning 能力的 benchmark。這四個能力不是隨便列的，它們幾乎就是 analyst 日常會做的事情：記得標準與知識、理解威脅語境、對漏洞與報告做判讀、以及在不完整資訊下做推理。

CTIBench 的四個任務

整個 benchmark 由四個 task 組成，分別對應不同層次的 CTI 能力：

CTI-MCQ：多選題，測知識理解與記憶
CTI-RCM：Root Cause Mapping，把 CVE 描述對應到 CWE
CTI-VSP：Vulnerability Severity Prediction，從 CVE 描述推估 CVSS v3 向量與分數
CTI-TAA：Threat Actor Attribution，根據 threat report 歸因到威脅行為者或 malware family

這個設計相當聰明，因為它沒有把 CTI 簡化成單一 QA benchmark，而是覆蓋從「知識庫認知」到「結構化漏洞判讀」再到「高不確定性的 threat attribution」的一整段光譜。

CTI-MCQ：先測模型到底懂不懂 CTI 基礎知識

第一個任務是 CTI-MCQ。作者從多個權威來源蒐集知識材料，包括：

NIST
MITRE ATT&CK
CWE
CAPEC
STIX / TAXII
GDPR 與其他 CTI framework / regulation

接著用 GPT-4o 依據文件內容產生題目，再經過人工驗證與修正，去掉有多個正確答案、答案標錯、或題目本身不夠可答的項目。最後形成的資料集規模為 2,500 題，其中大宗來自 MITRE 與 CWE。

這裡值得注意的是，作者沒有把 GPT 產題直接當成 ground truth，而是特別做人工驗證。這一步很重要，因為 benchmark 一旦 ground truth 不乾淨，後面所有模型比較都會失真。

CTI-RCM：從 CVE 描述推到根本弱點

第二個任務是 Cyber Threat Intelligence Root Cause Mapping。輸入是一段 CVE 描述，輸出是對應的 CWE。這不是簡單的 string matching，因為很多 CVE 描述本身寫得含蓄、簡略，甚至混有多種技術細節，模型必須理解漏洞的本質，才有機會映射到正確的 weakness 類別。

資料來源是 NVD，作者挑選了 2024 年、且有 CWE mapping 的 CVE，隨機抽出 1,000 筆 作為資料集。這個選法有個很實用的考量：2024 年資料超過多數模型訓練截點，可以減少單純背誦舊資料的影響，讓 benchmark 更接近真正在測 reasoning 與 generalization。

CTI-VSP：從文字描述估算 CVSS 嚴重度

第三個任務是 Vulnerability Severity Prediction。作者讓模型根據 CVE 描述去預測 CVSS v3 Base Vector String，再把它轉成最終分數。

CVSS v3 Base Score 涉及八個核心 metric：

AV：Attack Vector
AC：Attack Complexity
PR：Privileges Required
UI：User Interaction
S：Scope
C：Confidentiality Impact
I：Integrity Impact
A：Availability Impact

這個任務很適合拿來測 LLM 在漏洞理解上的實際能力，因為它不是問一個抽象知識題，而是要求模型把漏洞描述轉成結構化風險判斷。作者同樣使用 2024 年的 1,000 筆 CVE 描述與對應 CVSS v3 string 作為資料來源。

CTI-TAA：最像真實分析工作的任務

第四個任務是 Threat Actor Attribution。作者收集了 50 份 來自可信廠商的 threat report，這些報告本來就包含已知 APT group attribution。為了讓評估更合理，作者把報告中直接暴露 actor 名稱與 campaign 名稱的部分替換成 placeholder，再讓模型依據剩下的內容做歸因。

這個任務最貼近真實 CTI 推理，因為 threat actor attribution 本來就高度依賴不完整證據、歷史 TTP 模式、地緣政治背景、攻擊目標與工具重用等線索。作者也明說這比較像是一種 abductive reasoning：從不完整資訊中找出最合理的解釋。

評估模型與設定

作者評估了五個模型：

ChatGPT-3.5
GPT-4 Turbo
Gemini 1.5
Llama 3 70B
Llama 3 8B

所有任務都用 zero-shot prompt，並要求模型扮演 cybersecurity expert。參數上把 temperature 設為 0、top_p 設為 1，以盡量降低隨機性，讓 benchmark 結果更穩定。

評估指標怎麼設計？

這篇論文在 metric 選擇上也算合理：

CTI-MCQ / CTI-RCM：用 accuracy
CTI-VSP：用 Mean Absolute Deviation（MAD）衡量預測 CVSS 分數和 ground truth 的差距
CTI-TAA：分成 correct、plausible、incorrect 三類，並同時計算 Correct Accuracy 與 Plausible Accuracy

其中 CTI-TAA 的設計特別值得記一下。因為 threat attribution 很少是絕對單點答案，有時模型猜到的不是正確 actor，但屬於同國別、同風格、同技術群的 plausible candidate。把這些 plausible answer 保留下來，會比單純 0 / 1 打分更貼近 analyst 實務。

整體結果：GPT-4 最穩，但不是每個任務都第一

論文總結是：GPT-4 在大多數 CTIBench 任務上表現最好，但在 CVSS 嚴重度預測（CTI-VSP）上，Gemini 1.5 表現最佳。 同時，Llama 3 70B 整體可與 Gemini 1.5 相比，甚至在部分任務上更強；Llama 3 8B 則明顯落後，尤其在需要較多推理與細膩理解的任務上。

這組結果傳達出一個很務實的訊息：CTI 並不是那種只要模型夠大就一定橫掃的領域。 不同任務對知識穩定性、推理方式、風險估算能力的要求不同，因此各模型的優勢也會分化。

CTI-MCQ 分析：知識型問題仍有明顯天花板

在 CTI-MCQ 上，作者做了 error correlation analysis，發現大模型之間會犯相似的錯。也就是說，像 GPT-4、Gemini 1.5、Llama 3 70B 這些較強模型，雖然整體準確率較高，但它們答錯的題目常常是同一批。

論文提到，有 293 題是五個模型全部都答錯。這些題目多半和 mitigation plan、攻擊工具與 adversary techniques 有關。這很有意思，因為它表示問題不只是模型大小，而是這些知識類型本身可能更動態、更依賴具體上下文，也更容易超出模型參數記憶能穩定覆蓋的範圍。

作者還比較了 ATT&CK 與 CWE 來源的題目，發現模型在 CWE 題目上的表現通常比 ATT&CK 好。原因不難理解：CWE 相對穩定，ATT&CK 的技術知識與行為脈絡變動更快。即使最強的 GPT-4，在最佳子集上的表現也只到大約 75.65%，離真正可放心自動化仍有距離。

CTI-RCM 分析：描述變長先幫忙，太長又開始害人

在 Root Cause Mapping 任務中，作者分析了 CVE 描述長度與模型表現的關係。結果顯示，多數模型在描述稍長時表現會變好，因為有更多上下文可供推斷；但當描述再更長、更複雜後，準確率又開始下降。

這個現象相當合理。較長描述提供更多 clue，但也會引入更多噪音、更多可能對應的 CWE 線索，讓模型難以抓住「最核心」的 weakness。對漏洞分析來說，這正是 LLM 很常見的問題：懂得越多，不代表能更穩定地抽出主因。

作者還補做了一個有趣的對照：除了 2024 資料，也拿 2021 的資料再測一次。結果是五個模型裡有四個在 2021 上反而更差。這代表 CTI-RCM 並不是單純靠訓練語料年代就能輕鬆解決的 task，本身就有相當高的困難度。

CTI-VSP 分析：模型傾向高估漏洞嚴重度

在 CVSS 預測任務中，作者用 MAD 評估模型預測分數與實際分數之間的差距。整體上，較長的描述通常有助於降低 MAD，但當描述太長、太複雜時，誤差又會上升。

更關鍵的是，作者把 CVSS 的各個 base metric 拆開看後發現，模型對下列欄位通常比較穩：

但對以下欄位明顯較弱：

這其實點出 CVE 描述本身的侷限：很多 CVE 文本沒有提供足夠訊息，讓模型能準確判斷 privilege requirement、scope 變化、或 CIA impact 的細節。

另外，作者觀察到所有模型都更常 overestimate 而不是 underestimate 嚴重度，且這種高估傾向在兩個 Llama 模型上更明顯。這對實務很重要，因為如果未校準的 LLM 直接介入漏洞優先級排序，可能會導致 SOC 或 VM 團隊資源被過度拉去處理其實沒那麼高風險的項目。

CTI-TAA 分析：大模型已經能做「像樣但不穩」的歸因

在 threat actor attribution 任務中，作者指出較大的模型已經能做出一定程度的 nuanced reasoning。也就是說，它們不只是看到幾個 IoC 就亂猜，而是會從攻擊對象、區域、手法、歷史模式去做較像 analyst 的推論。

但問題也很明顯：模型還是會 misattribute，尤其當多個 actor 共享相似 TTP，或者報告刻意省略了決定性線索時。作者舉的例子很典型：模型可能把 MuddyWater 相關報告猜成 APT35，雖然 technically 不對，但在區域、風格與攻擊脈絡上又不是完全亂答。這種結果在 benchmark 裡很難一刀切判對錯，也再次說明 threat attribution 需要的是 evidence-based analyst workflow，而不是單輪神諭式回答。

這篇論文的貢獻在哪裡？

我認為 CTIBench 最有價值的地方有三個：

它把 CTI 能力拆成可評估的多任務集合，而不是只做一個問答資料集
它刻意選了更貼近實務的任務，像 CVE→CWE、CVSS 預測、threat attribution，這些都比一般資安 trivia 更有操作價值
它讓後續論文更容易比較，之後不管是 RAG、agent、finetuning、cyber domain adaptation，都可以拿同一套 benchmark 來驗證改善幅度

如果把 CTIBench 放進整體 CTI / AI 研究路線圖，它比較像是基礎建設。沒有這種 benchmark，後面很多系統型論文其實都很難嚴格比較，也容易陷入 demo 很炫、評估卻很鬆的問題。

論文限制

作者自己也承認幾個限制：

CTI 任務很多，CTIBench 目前只涵蓋其中一部分
主要聚焦英文資料，沒有處理多語 CTI 場景
Threat Actor Attribution 資料集規模仍偏小，只有 50 份報告

這些限制都成立。不過就算如此，CTIBench 仍然比許多只測單一 task 或單一問答集合的 benchmark 更接近 CTI 現場。

總結

CTIBench 這篇論文的重要性，不在於它證明哪個模型天下無敵，而在於它把「LLM 在 CTI 的能力」這件事，第一次用一組比較完整、比較實務導向的 benchmark 系統化了。

從結果來看，目前最強模型確實已經能處理不少 CTI 任務，尤其在知識理解、部分漏洞分析與一定程度的 threat attribution 上有可觀能力；但同時，模型在動態知識、CVSS 細部判斷、以及高不確定性歸因上，仍有明顯脆弱點。對 sectools.tw 的讀者來說，這篇的價值正在這裡：它提醒我們，不要只看 LLM demo 很會講，而要看它在 CTI benchmark 上到底穩不穩、錯在哪裡、能不能被信任地放進 analyst workflow。

CTIBench 論文閱讀分析：系統性評估大型語言模型在 Cyber Threat Intelligence 的能力

論文基本資訊

這篇論文想解決什麼問題？

CTIBench 的四個任務

CTI-MCQ：先測模型到底懂不懂 CTI 基礎知識

CTI-RCM：從 CVE 描述推到根本弱點

CTI-VSP：從文字描述估算 CVSS 嚴重度

CTI-TAA：最像真實分析工作的任務

評估模型與設定

評估指標怎麼設計？

整體結果：GPT-4 最穩，但不是每個任務都第一

CTI-MCQ 分析：知識型問題仍有明顯天花板

CTI-RCM 分析：描述變長先幫忙，太長又開始害人

CTI-VSP 分析：模型傾向高估漏洞嚴重度

CTI-TAA 分析：大模型已經能做「像樣但不穩」的歸因

這篇論文的貢獻在哪裡？

論文限制

總結

發佈留言取消回覆

You may also like

近期文章

廣告

文章分類

近期留言

論文基本資訊

這篇論文想解決什麼問題？

CTIBench 的四個任務

CTI-MCQ：先測模型到底懂不懂 CTI 基礎知識

CTI-RCM：從 CVE 描述推到根本弱點

CTI-VSP：從文字描述估算 CVSS 嚴重度

CTI-TAA：最像真實分析工作的任務

評估模型與設定

評估指標怎麼設計？

整體結果：GPT-4 最穩，但不是每個任務都第一

CTI-MCQ 分析：知識型問題仍有明顯天花板

CTI-RCM 分析：描述變長先幫忙，太長又開始害人

CTI-VSP 分析：模型傾向高估漏洞嚴重度

CTI-TAA 分析：大模型已經能做「像樣但不穩」的歸因

這篇論文的貢獻在哪裡？

論文限制

總結

發佈留言 取消回覆

You may also like

AttackSeqBench 論文閱讀分析：LLM 真的看得懂多步驟攻擊序列嗎？

RAGIntel 論文閱讀分析：用 RAG 與大型語言模型做攻擊調查

近期文章

廣告

文章分類

近期留言

發佈留言取消回覆