CAIBench 論文閱讀分析:當模型會答題,不等於它真的會做資安攻防

論文基本資訊

  • 論文標題:Cybersecurity AI Benchmark (CAIBench): A Meta-Benchmark for Evaluating Cybersecurity AI Agents
  • 作者:Víctor Mayoral-Vilches、Francesco Balassone、Luis Javier Navarrete-Lozano、Cristóbal R. J. Veas Chavez、Maite del Mundo de Torres
  • 年份:2025
  • 來源:arXiv:2510.24317v1
  • 論文連結:https://arxiv.org/abs/2510.24317
  • 主題:Cybersecurity Benchmark、AI Agent、Agentic Security、CTF、Cyber Range、CTI Benchmark、Privacy Evaluation

如果把近期這一串論文放在一起看,CAIBench 其實回答的是一個很根本、也很不舒服的問題:我們最近看到那麼多「LLM 很懂資安」「AI agent 會打靶、會寫規則、會做 CTI 推理」的結果,到底有多少只是單點能力,有多少真的能轉成接近實務工作的綜合表現?

這篇論文的價值,不在於再發明一個新的攻防 agent,而在於它試圖重新定義「怎麼評估」。作者的主張很直接:現有 benchmark 太碎片化,很多只測知識、只測單一 exploit、只測靜態問答,卻很少真的逼模型面對多步驟、對抗式、攻防並存、還帶有部署與隱私約束的情境。 如果評估框架本身就切得太窄,那我們得到的結論自然也會過度樂觀。

這篇論文想解決什麼問題?

作者把問題講得很清楚。當前資安 AI 評估有幾個結構性缺陷:

  • 只測局部技能,不測整體能力:例如會做 security QA,不代表會真的 exploit;會做 exploit,不代表能同時維持防守與服務可用性。
  • 靜態 benchmark 太多,動態對抗場景太少:很多測試停留在選擇題、知識問答或單輪任務,和真實攻防工作流差距很大。
  • 不同 benchmark 的方法、環境、指標彼此不相容:很難做一致比較,也很難知道一個模型到底強在哪裡、弱在哪裡。
  • 新興領域缺測:像機器人/cyber-physical systems、隱私保護與合規這些場景,在既有 benchmark 裡幾乎都不是核心項目。

因此,CAIBench 提出的不是單一 benchmark,而是一個 meta-benchmark:也就是把多種不同型態的 benchmark 收攏到同一個框架下,讓模型與 agent 可以在相對一致、可重現、可擴充的條件下被評估。

CAIBench 的核心主張:知識不是能力,能力也不是勞動可用性

整篇論文最值得記住的一句話,幾乎可以濃縮成:pre-trained cybersecurity knowledge does not imply attack and defense abilities.

這句話聽起來像常識,但在現在的 AI 資安討論裡,反而很容易被忽略。模型答得出 CTI 題目、知道 CVE 與 ATT&CK,不代表它能:

  • 在 Cyber Range 裡走完一段完整攻擊鏈
  • 在 Attack-and-Defense 場景裡一邊找洞一邊補洞
  • 在服務必須持續可用的條件下做即時決策
  • 在遇到真實對手時穩定調整策略

作者因此把 benchmark 的目標往前推一步:不只是測「懂不懂」,而是盡量接近 labor-relevant 的表現,也就是更貼近真實資安工作裡有沒有用、能不能用、可不可信地用。

CAIBench 的整體架構

CAIBench 把整個框架拆成三個維度:

  • Categories:評測類別
  • Difficulty:難度分級
  • Infrastructure:底層執行方式

其中最核心的是五大類 benchmark:

  1. Jeopardy-style CTFs
  2. Attack-and-Defense CTFs
  3. Cyber Range Exercises
  4. Cybersecurity Knowledge Benchmarks
  5. Privacy Benchmarks

這五類之所以重要,在於它們分別對應不同層次的能力:

  • CTF 偏向離散技能與任務解題
  • A&D 偏向對抗式、即時、平衡攻守的能力
  • Cyber Range 偏向較完整的情境與操作鏈
  • Knowledge Bench 偏向理論知識、理解與推理
  • Privacy Bench 則補上現實部署中很容易被忽略的合規與敏感資料處理能力

這樣的設計,比單一 benchmark 更接近現實:資安工作本來就不是只靠一種能力完成,而是多種能力在不同壓力下共同作用。

難度設計:從新手到專業研究者

CAIBench 還做了一個我認為很實用的設計:把任務難度明確分成五級,從 very easy 到 very hard,對應的對象從初學者一路拉到專業資安人員與頂尖研究者。

這件事的意義不只是好看,而是讓 benchmark 不會只回答「模型有沒有過」,而能更細地回答:

  • 模型目前大概停在哪個熟練度層級?
  • 哪些任務已經飽和?
  • 哪些任務仍然明顯需要人類專家?

對企業與研究團隊來說,這種分級其實比單一平均分數更有決策價值。

兩種基礎設施:Docker-based 與 Scripted Evaluation

作者把整個框架的底層執行分成兩種:

  • Docker-based benchmarks:用來跑實作型、互動型任務,例如 CTF、A&D、Cyber Range。
  • Scripted evaluation benchmarks:用來跑知識與隱私類任務,例如 SecEval、CyberMetric、CTIBench、CyberPII-Bench。

這個分法很關鍵。它承認一個現實:不是所有資安能力都應該被塞進同一種測試形式。 有些東西就是該在容器化、可操作環境裡測;有些東西則更適合用結構化資料與腳本評估。把兩者硬混在一起,反而容易讓評估變得失真。

五大類 benchmark 各自測什麼?

1. Jeopardy-style CTFs

這一類涵蓋 Base、Cybench、RCTF2、AutoPenBench 等,總共包含 web、crypto、reverse engineering、forensics、pwn 以及 robotics 等題型。作者特別指出:

  • Base 是較基礎的滲透測試能力評估
  • Cybench 則更像目前產業常用的統一框架之一
  • AutoPenBench 偏向自動化滲透測試情境
  • RCTF2 則是最值得注意的新補充,因為它把機器人與 cyber-physical systems 安全正式拉進 benchmark 版圖

這裡最有意思的地方在於:作者不是再做一個新的通用 CTF 集,而是刻意把傳統 IT、agentic pentest、以及 robotics security 串進同一個框架。

2. Cybersecurity Knowledge Benchmarks

這一類納入了:

  • SecEval
  • CyberMetric
  • CTIBench

對 sectools.tw 這條線來說,這裡最重要的當然是 CTIBench 被納入,且作者選擇其中最能代表 CTI 能力的兩個子任務:

  • CTI MCQ:測知識理解與概念掌握
  • CTI RCM:測推理、關聯與情境判讀

這代表 CAIBench 雖然不是純 CTI 論文,但它明確承認:CTI 不只是附屬能力,而是整個資安 AI 評估中不可缺的 intelligence layer。

3. Privacy Benchmarks

這篇另一個很值得肯定的地方,是它沒有把隱私視為附帶議題,而是單獨做出 CyberPII-Bench。這個 benchmark 針對 PERSON、EMAIL_ADDRESS、IP_ADDRESS、CREDIT_CARD 等 PII 類別,使用 precision、recall、F1、F2 來評估 anonymization 與敏感資訊處理能力。

這很重要,因為真實世界中的 security AI 不是只要會攻防就好,它還常常要處理:

  • 攻防演練資料
  • 事件調查紀錄
  • 客戶環境資訊
  • 可能受法規約束的個資

若一個模型在資安能力上再強,但對敏感資訊處理一塌糊塗,那它在很多企業場景裡根本不能上線。

4. Cyber Range Exercises

CAIBench 也納入 10 個 Cyber Range、共 14 個 challenge。這些情境從 WordPress enumeration、credential brute force,到 reverse engineering、privilege escalation、command injection、Shellshock、traffic analysis 都有。

這類任務的價值在於,它不像選擇題那麼靜態,也不像單題 CTF 那麼切碎,而是更接近一段有脈絡、需要連續操作與環境感知的工作流。某種程度上,這比純知識題更能測出 agent 到底有沒有「把事情做完」的能力。

5. Attack-and-Defense CTFs

這是整篇論文我最喜歡的一塊。作者認為,真實資安工作不是只攻不守,也不是只守不攻,而是常常同時存在:

  • 你得找洞
  • 你得補洞
  • 你得維持服務
  • 你還得在對手也在動的情況下持續調整

因此,A&D 類任務成了 CAIBench 最能逼近現實壓力的部分。這 10 個挑戰涵蓋 command injection、SQL injection、SSTI、prototype pollution、pickle RCE、lateral movement 等典型技術,並把評分建立在:

  • 攻擊得分
  • 防守得分
  • 服務可用性
  • 即時對抗中的勝負結果

這種設計的技術意義很大,因為它測的不只是 exploit 成功率,而是在受限時間與對抗條件下,模型能不能做資源分配、策略平衡與即時反應。

實驗結果:知識分數已經不差,但實作表現落差很大

CAIBench 最有說服力的部分,來自它把不同類型 benchmark 拉到一起後,得出一個非常一致的發現:目前模型在知識題上已經接近飽和,但一進到需要多步驟操作與對抗調整的場景,表現就明顯掉下來。

作者摘要裡給出的整體趨勢是:

  • 安全知識類指標約可達 70% 左右成功率
  • 多步驟 adversarial A&D 場景通常只剩 20–40%
  • robotic targets 甚至只有約 22%

換句話說,現在很多模型在回答資安知識、CTI 題目、漏洞概念時已經顯得「很像懂了」,但一旦要它們實際在複雜環境中把多個步驟串起來,能力就還遠未成熟。

細看表現:alias1、Claude、GPT-5 與開源模型的差異

論文展示的表格中,作者比較了自家 alias1 / alias0,以及 gpt-5、claude-sonnet-4.5、gemini-2.5-pro、qwen3-32b、deepseek-R1 等模型/agent 組合。

從結果來看,有幾個重點:

  • 知識 benchmark 普遍比實作 benchmark 好看很多。例如 alias1 在 CyberMetric 可達 89%,在 CTI MCQ 與 CTI RCM 分別約 73%、74%。
  • Jeopardy-style CTF 還能看到一定成功率,例如 claude-sonnet-4.5 在 Base benchmark 達 75%,alias1 在 Base 也有 67%。
  • 一進入 Attack-and-Defense 或更複雜 Cyber Range,成功率與穩定度就明顯下降
  • 模型本身與 agent scaffolding 的搭配差很多。作者甚至指出,適合的框架搭配可造成最高 2.6× 的效能差異。

這裡有個非常重要的訊息:資安 agent 的能力,並不是模型參數越大就自然越強,而是高度依賴框架設計、工具使用方式、上下文管理與任務編排。 這也和近期 agentic security 論文的結論高度一致。

為什麼這篇對 CTI / SOC 線也重要?

雖然 CAIBench 的範圍比 CTI 更大,但它對 CTI / SOC 研究其實有三個很直接的提醒:

1. CTI benchmark 分數不能直接外推到完整 SOC 能力

模型在 CTIBench、CyberMetric 或其他知識型 benchmark 上表現好,最多只能說明它在某些 threat knowledge 與推理切片上具備潛力;不代表它在真實 SOC workflow 中就能可靠地處理長鏈任務。

2. Agentic security 的瓶頸不只是知識,而是執行與協調

這篇論文把「懂」和「會做」之間的落差量化得很清楚。對近期那些強調 LLM agent 可做調查、寫規則、做 attribution 的研究來說,CAIBench 提供了一個更嚴格的背景:要證明 agentic security 真有價值,不能只證明它會回答,還得證明它在動態、受壓、對抗的場景下不會崩。

3. 未來 benchmark 會更重視組合能力,而不是單點能力

CTI、SOC、incident response、privacy、cyber range,其實不是分離的島。真正可落地的 AI security system,最終一定要跨這些模塊運作。CAIBench 的 meta-benchmark 思路,正是在往這個方向推。

這篇論文真正的新意在哪裡?

我認為 CAIBench 的新意主要有四點:

  1. 把資安 AI benchmark 從單一測驗推進成 meta-benchmark,開始談整體評估而不是局部刷榜。
  2. 首次系統性納入同時攻防的 A&D 評估,這比單邊攻擊或單邊防守都更接近真實作業。
  3. 把 robotics / cyber-physical security 正式納入 benchmark 視野,這讓「未來安全系統」的評估不再只侷限於傳統 IT。
  4. 把 privacy-preserving capability 當成一等公民,而非評估框架外的附註。

限制與需要保留的地方

當然,這篇也不是沒有問題。

  • labor-relevance 仍然是目標,不是已被充分證明的事實。作者自己也承認,目前仍無法保證 benchmark 分數能直接映射到真實資安勞動能力。
  • 框架很廣,但不同子 benchmark 的成熟度不一。有些任務已接近飽和,有些仍很早期,放在一起比較時要注意解讀。
  • 結果部分仍帶有特定框架與工具鏈偏差。某些 agent 在某類場景中的優勢,可能來自 scaffolding,而不純粹是模型本體。
  • 對 defender workflow 的細緻評估仍可再深化。例如 SOC 中的 triage、escalation、evidence documentation、human handoff 等,未來還需要更精細 benchmark。

總結

CAIBench 最值得看的地方,不是它再次證明某個模型在某個表格上拿了高分,而是它把一件很多人心裡都知道、卻很少被系統性量化的事情講明白:資安知識、資安推理、資安執行、對抗式調整與合規處理,根本不是同一種能力。

對近期這波 CTI/AI/benchmark/agentic security 論文來說,CAIBench 剛好像一面冷水:它提醒我們,模型可以很會回答,卻仍然不會工作;可以在知識題拿高分,卻仍然在真實攻防裡顯得笨重、脆弱、缺乏適應力。 如果下一階段真的要把 AI 放進 SOC、CTI、甚至更高風險的安全作業環境,那未來最重要的競爭,恐怕不只是誰的模型更聰明,而是誰的 benchmark 更接近現實、誰的 agent 框架更能把知識轉成可靠行動。

免責聲明

本文由 AI 產生、整理與撰寫。內容主要依據公開論文與可取得之研究資料進行整理與分析;實際技術細節、實驗設定與最終結論,仍應以原始論文及作者公開資料為準。

You may also like