CTIBench 論文閱讀分析:系統性評估大型語言模型在 Cyber Threat Intelligence 的能力

論文基本資訊

  • 論文標題:CTIBench: A Benchmark for Evaluating LLMs in Cyber Threat Intelligence
  • 作者:Dipkamal Bhusal、Md Tanvirul Alam、Le Nguyen、Ashim Mahara、Zachary Lightcap、Rodney Frazier、Romy Fieblinger、Grace Long Torales、Nidhi Rastogi
  • 年份:2024
  • 來源:arXiv:2406.07599v3
  • 論文連結:https://arxiv.org/abs/2406.07599
  • 主題:CTI Benchmark、LLM Evaluation、CVE/CWE、CVSS、Threat Actor Attribution、Cyber Threat Intelligence

這篇 CTIBench 很適合放進 sectools.tw 近期這批 CTI / AI 論文脈絡,因為它不是再做一個新的 agent 系統,也不是再宣稱某個模型能自動做完 SOC 或 attribution;它做的事情更基礎,也更重要:先把「LLM 在 CTI 到底會不會」這件事拆成可以量化評估的 benchmark。

作者的問題意識很直接。大家都在談 LLM 可以讀 threat report、做 vulnerability analysis、甚至幫忙 threat attribution,但如果沒有一套夠貼近 CTI 實務的 benchmark,我們其實很難知道模型到底是在背答案、在做語言匹配,還是真的具備某種程度的 threat reasoning 能力。

這篇論文想解決什麼問題?

作者認為,既有 benchmark 多半有兩個問題:

  • 不是太通用,只能測一般語言理解,無法反映 CTI 任務的專業性
  • 就是太窄,只測資安問答、程式碼安全或特定 extraction task,沒有涵蓋較完整的 CTI cognitive workload

因此 CTIBench 的核心目標,是建立一套專門評估 LLM 在 CTI 領域中 memorization、understanding、problem-solving、reasoning 能力的 benchmark。這四個能力不是隨便列的,它們幾乎就是 analyst 日常會做的事情:記得標準與知識、理解威脅語境、對漏洞與報告做判讀、以及在不完整資訊下做推理。

CTIBench 的四個任務

整個 benchmark 由四個 task 組成,分別對應不同層次的 CTI 能力:

  1. CTI-MCQ:多選題,測知識理解與記憶
  2. CTI-RCM:Root Cause Mapping,把 CVE 描述對應到 CWE
  3. CTI-VSP:Vulnerability Severity Prediction,從 CVE 描述推估 CVSS v3 向量與分數
  4. CTI-TAA:Threat Actor Attribution,根據 threat report 歸因到威脅行為者或 malware family

這個設計相當聰明,因為它沒有把 CTI 簡化成單一 QA benchmark,而是覆蓋從「知識庫認知」到「結構化漏洞判讀」再到「高不確定性的 threat attribution」的一整段光譜。

CTI-MCQ:先測模型到底懂不懂 CTI 基礎知識

第一個任務是 CTI-MCQ。作者從多個權威來源蒐集知識材料,包括:

  • NIST
  • MITRE ATT&CK
  • CWE
  • CAPEC
  • STIX / TAXII
  • GDPR 與其他 CTI framework / regulation

接著用 GPT-4o 依據文件內容產生題目,再經過人工驗證與修正,去掉有多個正確答案、答案標錯、或題目本身不夠可答的項目。最後形成的資料集規模為 2,500 題,其中大宗來自 MITRE 與 CWE。

這裡值得注意的是,作者沒有把 GPT 產題直接當成 ground truth,而是特別做人工驗證。這一步很重要,因為 benchmark 一旦 ground truth 不乾淨,後面所有模型比較都會失真。

CTI-RCM:從 CVE 描述推到根本弱點

第二個任務是 Cyber Threat Intelligence Root Cause Mapping。輸入是一段 CVE 描述,輸出是對應的 CWE。這不是簡單的 string matching,因為很多 CVE 描述本身寫得含蓄、簡略,甚至混有多種技術細節,模型必須理解漏洞的本質,才有機會映射到正確的 weakness 類別。

資料來源是 NVD,作者挑選了 2024 年、且有 CWE mapping 的 CVE,隨機抽出 1,000 筆 作為資料集。這個選法有個很實用的考量:2024 年資料超過多數模型訓練截點,可以減少單純背誦舊資料的影響,讓 benchmark 更接近真正在測 reasoning 與 generalization。

CTI-VSP:從文字描述估算 CVSS 嚴重度

第三個任務是 Vulnerability Severity Prediction。作者讓模型根據 CVE 描述去預測 CVSS v3 Base Vector String,再把它轉成最終分數。

CVSS v3 Base Score 涉及八個核心 metric:

  • AV:Attack Vector
  • AC:Attack Complexity
  • PR:Privileges Required
  • UI:User Interaction
  • S:Scope
  • C:Confidentiality Impact
  • I:Integrity Impact
  • A:Availability Impact

這個任務很適合拿來測 LLM 在漏洞理解上的實際能力,因為它不是問一個抽象知識題,而是要求模型把漏洞描述轉成結構化風險判斷。作者同樣使用 2024 年的 1,000 筆 CVE 描述與對應 CVSS v3 string 作為資料來源。

CTI-TAA:最像真實分析工作的任務

第四個任務是 Threat Actor Attribution。作者收集了 50 份 來自可信廠商的 threat report,這些報告本來就包含已知 APT group attribution。為了讓評估更合理,作者把報告中直接暴露 actor 名稱與 campaign 名稱的部分替換成 placeholder,再讓模型依據剩下的內容做歸因。

這個任務最貼近真實 CTI 推理,因為 threat actor attribution 本來就高度依賴不完整證據、歷史 TTP 模式、地緣政治背景、攻擊目標與工具重用等線索。作者也明說這比較像是一種 abductive reasoning:從不完整資訊中找出最合理的解釋。

評估模型與設定

作者評估了五個模型:

  • ChatGPT-3.5
  • GPT-4 Turbo
  • Gemini 1.5
  • Llama 3 70B
  • Llama 3 8B

所有任務都用 zero-shot prompt,並要求模型扮演 cybersecurity expert。參數上把 temperature 設為 0、top_p 設為 1,以盡量降低隨機性,讓 benchmark 結果更穩定。

評估指標怎麼設計?

這篇論文在 metric 選擇上也算合理:

  • CTI-MCQ / CTI-RCM:用 accuracy
  • CTI-VSP:用 Mean Absolute Deviation(MAD)衡量預測 CVSS 分數和 ground truth 的差距
  • CTI-TAA:分成 correct、plausible、incorrect 三類,並同時計算 Correct Accuracy 與 Plausible Accuracy

其中 CTI-TAA 的設計特別值得記一下。因為 threat attribution 很少是絕對單點答案,有時模型猜到的不是正確 actor,但屬於同國別、同風格、同技術群的 plausible candidate。把這些 plausible answer 保留下來,會比單純 0 / 1 打分更貼近 analyst 實務。

整體結果:GPT-4 最穩,但不是每個任務都第一

論文總結是:GPT-4 在大多數 CTIBench 任務上表現最好,但在 CVSS 嚴重度預測(CTI-VSP)上,Gemini 1.5 表現最佳。 同時,Llama 3 70B 整體可與 Gemini 1.5 相比,甚至在部分任務上更強;Llama 3 8B 則明顯落後,尤其在需要較多推理與細膩理解的任務上。

這組結果傳達出一個很務實的訊息:CTI 並不是那種只要模型夠大就一定橫掃的領域。 不同任務對知識穩定性、推理方式、風險估算能力的要求不同,因此各模型的優勢也會分化。

CTI-MCQ 分析:知識型問題仍有明顯天花板

在 CTI-MCQ 上,作者做了 error correlation analysis,發現大模型之間會犯相似的錯。也就是說,像 GPT-4、Gemini 1.5、Llama 3 70B 這些較強模型,雖然整體準確率較高,但它們答錯的題目常常是同一批。

論文提到,有 293 題是五個模型全部都答錯。這些題目多半和 mitigation plan、攻擊工具與 adversary techniques 有關。這很有意思,因為它表示問題不只是模型大小,而是這些知識類型本身可能更動態、更依賴具體上下文,也更容易超出模型參數記憶能穩定覆蓋的範圍。

作者還比較了 ATT&CK 與 CWE 來源的題目,發現模型在 CWE 題目上的表現通常比 ATT&CK 好。原因不難理解:CWE 相對穩定,ATT&CK 的技術知識與行為脈絡變動更快。即使最強的 GPT-4,在最佳子集上的表現也只到大約 75.65%,離真正可放心自動化仍有距離。

CTI-RCM 分析:描述變長先幫忙,太長又開始害人

在 Root Cause Mapping 任務中,作者分析了 CVE 描述長度與模型表現的關係。結果顯示,多數模型在描述稍長時表現會變好,因為有更多上下文可供推斷;但當描述再更長、更複雜後,準確率又開始下降。

這個現象相當合理。較長描述提供更多 clue,但也會引入更多噪音、更多可能對應的 CWE 線索,讓模型難以抓住「最核心」的 weakness。對漏洞分析來說,這正是 LLM 很常見的問題:懂得越多,不代表能更穩定地抽出主因。

作者還補做了一個有趣的對照:除了 2024 資料,也拿 2021 的資料再測一次。結果是五個模型裡有四個在 2021 上反而更差。這代表 CTI-RCM 並不是單純靠訓練語料年代就能輕鬆解決的 task,本身就有相當高的困難度。

CTI-VSP 分析:模型傾向高估漏洞嚴重度

在 CVSS 預測任務中,作者用 MAD 評估模型預測分數與實際分數之間的差距。整體上,較長的描述通常有助於降低 MAD,但當描述太長、太複雜時,誤差又會上升。

更關鍵的是,作者把 CVSS 的各個 base metric 拆開看後發現,模型對下列欄位通常比較穩:

  • AV
  • AC
  • UI

但對以下欄位明顯較弱:

  • PR
  • S
  • C
  • I

這其實點出 CVE 描述本身的侷限:很多 CVE 文本沒有提供足夠訊息,讓模型能準確判斷 privilege requirement、scope 變化、或 CIA impact 的細節。

另外,作者觀察到所有模型都更常 overestimate 而不是 underestimate 嚴重度,且這種高估傾向在兩個 Llama 模型上更明顯。這對實務很重要,因為如果未校準的 LLM 直接介入漏洞優先級排序,可能會導致 SOC 或 VM 團隊資源被過度拉去處理其實沒那麼高風險的項目。

CTI-TAA 分析:大模型已經能做「像樣但不穩」的歸因

在 threat actor attribution 任務中,作者指出較大的模型已經能做出一定程度的 nuanced reasoning。也就是說,它們不只是看到幾個 IoC 就亂猜,而是會從攻擊對象、區域、手法、歷史模式去做較像 analyst 的推論。

但問題也很明顯:模型還是會 misattribute,尤其當多個 actor 共享相似 TTP,或者報告刻意省略了決定性線索時。作者舉的例子很典型:模型可能把 MuddyWater 相關報告猜成 APT35,雖然 technically 不對,但在區域、風格與攻擊脈絡上又不是完全亂答。這種結果在 benchmark 裡很難一刀切判對錯,也再次說明 threat attribution 需要的是 evidence-based analyst workflow,而不是單輪神諭式回答。

這篇論文的貢獻在哪裡?

我認為 CTIBench 最有價值的地方有三個:

  1. 它把 CTI 能力拆成可評估的多任務集合,而不是只做一個問答資料集
  2. 它刻意選了更貼近實務的任務,像 CVE→CWE、CVSS 預測、threat attribution,這些都比一般資安 trivia 更有操作價值
  3. 它讓後續論文更容易比較,之後不管是 RAG、agent、finetuning、cyber domain adaptation,都可以拿同一套 benchmark 來驗證改善幅度

如果把 CTIBench 放進整體 CTI / AI 研究路線圖,它比較像是基礎建設。沒有這種 benchmark,後面很多系統型論文其實都很難嚴格比較,也容易陷入 demo 很炫、評估卻很鬆的問題。

論文限制

作者自己也承認幾個限制:

  • CTI 任務很多,CTIBench 目前只涵蓋其中一部分
  • 主要聚焦英文資料,沒有處理多語 CTI 場景
  • Threat Actor Attribution 資料集規模仍偏小,只有 50 份報告

這些限制都成立。不過就算如此,CTIBench 仍然比許多只測單一 task 或單一問答集合的 benchmark 更接近 CTI 現場。

總結

CTIBench 這篇論文的重要性,不在於它證明哪個模型天下無敵,而在於它把「LLM 在 CTI 的能力」這件事,第一次用一組比較完整、比較實務導向的 benchmark 系統化了。

從結果來看,目前最強模型確實已經能處理不少 CTI 任務,尤其在知識理解、部分漏洞分析與一定程度的 threat attribution 上有可觀能力;但同時,模型在動態知識、CVSS 細部判斷、以及高不確定性歸因上,仍有明顯脆弱點。對 sectools.tw 的讀者來說,這篇的價值正在這裡:它提醒我們,不要只看 LLM demo 很會講,而要看它在 CTI benchmark 上到底穩不穩、錯在哪裡、能不能被信任地放進 analyst workflow。

You may also like