CAIBench 論文閱讀分析：當模型會答題，不等於它真的會做資安攻防

2026 年 4 月 8 日

論文基本資訊

論文標題：Cybersecurity AI Benchmark (CAIBench): A Meta-Benchmark for Evaluating Cybersecurity AI Agents
作者：Víctor Mayoral-Vilches、Francesco Balassone、Luis Javier Navarrete-Lozano、Cristóbal R. J. Veas Chavez、Maite del Mundo de Torres
年份：2025
來源：arXiv:2510.24317v1
論文連結：https://arxiv.org/abs/2510.24317
主題：Cybersecurity Benchmark、AI Agent、Agentic Security、CTF、Cyber Range、CTI Benchmark、Privacy Evaluation

如果把近期這一串論文放在一起看，CAIBench 其實回答的是一個很根本、也很不舒服的問題：我們最近看到那麼多「LLM 很懂資安」「AI agent 會打靶、會寫規則、會做 CTI 推理」的結果，到底有多少只是單點能力，有多少真的能轉成接近實務工作的綜合表現？

這篇論文的價值，不在於再發明一個新的攻防 agent，而在於它試圖重新定義「怎麼評估」。作者的主張很直接：現有 benchmark 太碎片化，很多只測知識、只測單一 exploit、只測靜態問答，卻很少真的逼模型面對多步驟、對抗式、攻防並存、還帶有部署與隱私約束的情境。如果評估框架本身就切得太窄，那我們得到的結論自然也會過度樂觀。

這篇論文想解決什麼問題？

作者把問題講得很清楚。當前資安 AI 評估有幾個結構性缺陷：

只測局部技能，不測整體能力：例如會做 security QA，不代表會真的 exploit；會做 exploit，不代表能同時維持防守與服務可用性。
靜態 benchmark 太多，動態對抗場景太少：很多測試停留在選擇題、知識問答或單輪任務，和真實攻防工作流差距很大。
不同 benchmark 的方法、環境、指標彼此不相容：很難做一致比較，也很難知道一個模型到底強在哪裡、弱在哪裡。
新興領域缺測：像機器人／cyber-physical systems、隱私保護與合規這些場景，在既有 benchmark 裡幾乎都不是核心項目。

因此，CAIBench 提出的不是單一 benchmark，而是一個 meta-benchmark：也就是把多種不同型態的 benchmark 收攏到同一個框架下，讓模型與 agent 可以在相對一致、可重現、可擴充的條件下被評估。

CAIBench 的核心主張：知識不是能力，能力也不是勞動可用性

整篇論文最值得記住的一句話，幾乎可以濃縮成：pre-trained cybersecurity knowledge does not imply attack and defense abilities.

這句話聽起來像常識，但在現在的 AI 資安討論裡，反而很容易被忽略。模型答得出 CTI 題目、知道 CVE 與 ATT&CK，不代表它能：

在 Cyber Range 裡走完一段完整攻擊鏈
在 Attack-and-Defense 場景裡一邊找洞一邊補洞
在服務必須持續可用的條件下做即時決策
在遇到真實對手時穩定調整策略

作者因此把 benchmark 的目標往前推一步：不只是測「懂不懂」，而是盡量接近 labor-relevant 的表現，也就是更貼近真實資安工作裡有沒有用、能不能用、可不可信地用。

CAIBench 的整體架構

CAIBench 把整個框架拆成三個維度：

Categories：評測類別
Difficulty：難度分級
Infrastructure：底層執行方式

其中最核心的是五大類 benchmark：

Jeopardy-style CTFs
Attack-and-Defense CTFs
Cyber Range Exercises
Cybersecurity Knowledge Benchmarks
Privacy Benchmarks

這五類之所以重要，在於它們分別對應不同層次的能力：

CTF 偏向離散技能與任務解題
A&D 偏向對抗式、即時、平衡攻守的能力
Cyber Range 偏向較完整的情境與操作鏈
Knowledge Bench 偏向理論知識、理解與推理
Privacy Bench 則補上現實部署中很容易被忽略的合規與敏感資料處理能力

這樣的設計，比單一 benchmark 更接近現實：資安工作本來就不是只靠一種能力完成，而是多種能力在不同壓力下共同作用。

難度設計：從新手到專業研究者

CAIBench 還做了一個我認為很實用的設計：把任務難度明確分成五級，從 very easy 到 very hard，對應的對象從初學者一路拉到專業資安人員與頂尖研究者。

這件事的意義不只是好看，而是讓 benchmark 不會只回答「模型有沒有過」，而能更細地回答：

模型目前大概停在哪個熟練度層級？
哪些任務已經飽和？
哪些任務仍然明顯需要人類專家？

對企業與研究團隊來說，這種分級其實比單一平均分數更有決策價值。

兩種基礎設施：Docker-based 與 Scripted Evaluation

作者把整個框架的底層執行分成兩種：

Docker-based benchmarks：用來跑實作型、互動型任務，例如 CTF、A&D、Cyber Range。
Scripted evaluation benchmarks：用來跑知識與隱私類任務，例如 SecEval、CyberMetric、CTIBench、CyberPII-Bench。

這個分法很關鍵。它承認一個現實：不是所有資安能力都應該被塞進同一種測試形式。 有些東西就是該在容器化、可操作環境裡測；有些東西則更適合用結構化資料與腳本評估。把兩者硬混在一起，反而容易讓評估變得失真。

五大類 benchmark 各自測什麼？

1. Jeopardy-style CTFs

這一類涵蓋 Base、Cybench、RCTF2、AutoPenBench 等，總共包含 web、crypto、reverse engineering、forensics、pwn 以及 robotics 等題型。作者特別指出：

Base 是較基礎的滲透測試能力評估
Cybench 則更像目前產業常用的統一框架之一
AutoPenBench 偏向自動化滲透測試情境
RCTF2 則是最值得注意的新補充，因為它把機器人與 cyber-physical systems 安全正式拉進 benchmark 版圖

這裡最有意思的地方在於：作者不是再做一個新的通用 CTF 集，而是刻意把傳統 IT、agentic pentest、以及 robotics security 串進同一個框架。

2. Cybersecurity Knowledge Benchmarks

這一類納入了：

SecEval
CyberMetric
CTIBench

對 sectools.tw 這條線來說，這裡最重要的當然是 CTIBench 被納入，且作者選擇其中最能代表 CTI 能力的兩個子任務：

CTI MCQ：測知識理解與概念掌握
CTI RCM：測推理、關聯與情境判讀

這代表 CAIBench 雖然不是純 CTI 論文，但它明確承認：CTI 不只是附屬能力，而是整個資安 AI 評估中不可缺的 intelligence layer。

3. Privacy Benchmarks

這篇另一個很值得肯定的地方，是它沒有把隱私視為附帶議題，而是單獨做出 CyberPII-Bench。這個 benchmark 針對 PERSON、EMAIL_ADDRESS、IP_ADDRESS、CREDIT_CARD 等 PII 類別，使用 precision、recall、F1、F2 來評估 anonymization 與敏感資訊處理能力。

這很重要，因為真實世界中的 security AI 不是只要會攻防就好，它還常常要處理：

攻防演練資料
事件調查紀錄
客戶環境資訊
可能受法規約束的個資

若一個模型在資安能力上再強，但對敏感資訊處理一塌糊塗，那它在很多企業場景裡根本不能上線。

4. Cyber Range Exercises

CAIBench 也納入 10 個 Cyber Range、共 14 個 challenge。這些情境從 WordPress enumeration、credential brute force，到 reverse engineering、privilege escalation、command injection、Shellshock、traffic analysis 都有。

這類任務的價值在於，它不像選擇題那麼靜態，也不像單題 CTF 那麼切碎，而是更接近一段有脈絡、需要連續操作與環境感知的工作流。某種程度上，這比純知識題更能測出 agent 到底有沒有「把事情做完」的能力。

5. Attack-and-Defense CTFs

這是整篇論文我最喜歡的一塊。作者認為，真實資安工作不是只攻不守，也不是只守不攻，而是常常同時存在：

你得找洞
你得補洞
你得維持服務
你還得在對手也在動的情況下持續調整

因此，A&D 類任務成了 CAIBench 最能逼近現實壓力的部分。這 10 個挑戰涵蓋 command injection、SQL injection、SSTI、prototype pollution、pickle RCE、lateral movement 等典型技術，並把評分建立在：

攻擊得分
防守得分
服務可用性
即時對抗中的勝負結果

這種設計的技術意義很大，因為它測的不只是 exploit 成功率，而是在受限時間與對抗條件下，模型能不能做資源分配、策略平衡與即時反應。

實驗結果：知識分數已經不差，但實作表現落差很大

CAIBench 最有說服力的部分，來自它把不同類型 benchmark 拉到一起後，得出一個非常一致的發現：目前模型在知識題上已經接近飽和，但一進到需要多步驟操作與對抗調整的場景，表現就明顯掉下來。

作者摘要裡給出的整體趨勢是：

安全知識類指標約可達 70% 左右成功率
多步驟 adversarial A&D 場景通常只剩 20–40%
robotic targets 甚至只有約 22%

換句話說，現在很多模型在回答資安知識、CTI 題目、漏洞概念時已經顯得「很像懂了」，但一旦要它們實際在複雜環境中把多個步驟串起來，能力就還遠未成熟。

細看表現：alias1、Claude、GPT-5 與開源模型的差異

論文展示的表格中，作者比較了自家 alias1 / alias0，以及 gpt-5、claude-sonnet-4.5、gemini-2.5-pro、qwen3-32b、deepseek-R1 等模型／agent 組合。

從結果來看，有幾個重點：

知識 benchmark 普遍比實作 benchmark 好看很多。例如 alias1 在 CyberMetric 可達 89%，在 CTI MCQ 與 CTI RCM 分別約 73%、74%。
Jeopardy-style CTF 還能看到一定成功率，例如 claude-sonnet-4.5 在 Base benchmark 達 75%，alias1 在 Base 也有 67%。
一進入 Attack-and-Defense 或更複雜 Cyber Range，成功率與穩定度就明顯下降。
模型本身與 agent scaffolding 的搭配差很多。作者甚至指出，適合的框架搭配可造成最高 2.6× 的效能差異。

這裡有個非常重要的訊息：資安 agent 的能力，並不是模型參數越大就自然越強，而是高度依賴框架設計、工具使用方式、上下文管理與任務編排。 這也和近期 agentic security 論文的結論高度一致。

為什麼這篇對 CTI / SOC 線也重要？

雖然 CAIBench 的範圍比 CTI 更大，但它對 CTI / SOC 研究其實有三個很直接的提醒：

1. CTI benchmark 分數不能直接外推到完整 SOC 能力

模型在 CTIBench、CyberMetric 或其他知識型 benchmark 上表現好，最多只能說明它在某些 threat knowledge 與推理切片上具備潛力；不代表它在真實 SOC workflow 中就能可靠地處理長鏈任務。

2. Agentic security 的瓶頸不只是知識，而是執行與協調

這篇論文把「懂」和「會做」之間的落差量化得很清楚。對近期那些強調 LLM agent 可做調查、寫規則、做 attribution 的研究來說，CAIBench 提供了一個更嚴格的背景：要證明 agentic security 真有價值，不能只證明它會回答，還得證明它在動態、受壓、對抗的場景下不會崩。

3. 未來 benchmark 會更重視組合能力，而不是單點能力

CTI、SOC、incident response、privacy、cyber range，其實不是分離的島。真正可落地的 AI security system，最終一定要跨這些模塊運作。CAIBench 的 meta-benchmark 思路，正是在往這個方向推。

這篇論文真正的新意在哪裡？

我認為 CAIBench 的新意主要有四點：

把資安 AI benchmark 從單一測驗推進成 meta-benchmark，開始談整體評估而不是局部刷榜。
首次系統性納入同時攻防的 A&D 評估，這比單邊攻擊或單邊防守都更接近真實作業。
把 robotics / cyber-physical security 正式納入 benchmark 視野，這讓「未來安全系統」的評估不再只侷限於傳統 IT。
把 privacy-preserving capability 當成一等公民，而非評估框架外的附註。

限制與需要保留的地方

當然，這篇也不是沒有問題。

labor-relevance 仍然是目標，不是已被充分證明的事實。作者自己也承認，目前仍無法保證 benchmark 分數能直接映射到真實資安勞動能力。
框架很廣，但不同子 benchmark 的成熟度不一。有些任務已接近飽和，有些仍很早期，放在一起比較時要注意解讀。
結果部分仍帶有特定框架與工具鏈偏差。某些 agent 在某類場景中的優勢，可能來自 scaffolding，而不純粹是模型本體。
對 defender workflow 的細緻評估仍可再深化。例如 SOC 中的 triage、escalation、evidence documentation、human handoff 等，未來還需要更精細 benchmark。

總結

CAIBench 最值得看的地方，不是它再次證明某個模型在某個表格上拿了高分，而是它把一件很多人心裡都知道、卻很少被系統性量化的事情講明白：資安知識、資安推理、資安執行、對抗式調整與合規處理，根本不是同一種能力。

對近期這波 CTI／AI／benchmark／agentic security 論文來說，CAIBench 剛好像一面冷水：它提醒我們，模型可以很會回答，卻仍然不會工作；可以在知識題拿高分，卻仍然在真實攻防裡顯得笨重、脆弱、缺乏適應力。 如果下一階段真的要把 AI 放進 SOC、CTI、甚至更高風險的安全作業環境，那未來最重要的競爭，恐怕不只是誰的模型更聰明，而是誰的 benchmark 更接近現實、誰的 agent 框架更能把知識轉成可靠行動。

免責聲明

本文由 AI 產生、整理與撰寫。內容主要依據公開論文與可取得之研究資料進行整理與分析；實際技術細節、實驗設定與最終結論，仍應以原始論文及作者公開資料為準。

CAIBench 論文閱讀分析：當模型會答題，不等於它真的會做資安攻防

論文基本資訊

這篇論文想解決什麼問題？

CAIBench 的核心主張：知識不是能力，能力也不是勞動可用性

CAIBench 的整體架構

難度設計：從新手到專業研究者

兩種基礎設施：Docker-based 與 Scripted Evaluation

五大類 benchmark 各自測什麼？

1. Jeopardy-style CTFs

2. Cybersecurity Knowledge Benchmarks

3. Privacy Benchmarks

4. Cyber Range Exercises

5. Attack-and-Defense CTFs

實驗結果：知識分數已經不差，但實作表現落差很大

細看表現：alias1、Claude、GPT-5 與開源模型的差異

為什麼這篇對 CTI / SOC 線也重要？

1. CTI benchmark 分數不能直接外推到完整 SOC 能力

2. Agentic security 的瓶頸不只是知識，而是執行與協調

3. 未來 benchmark 會更重視組合能力，而不是單點能力

這篇論文真正的新意在哪裡？

限制與需要保留的地方

總結

免責聲明

發佈留言取消回覆

You may also like

近期文章

廣告

文章分類

近期留言

論文基本資訊

這篇論文想解決什麼問題？

CAIBench 的核心主張：知識不是能力，能力也不是勞動可用性

CAIBench 的整體架構

難度設計：從新手到專業研究者

兩種基礎設施：Docker-based 與 Scripted Evaluation

五大類 benchmark 各自測什麼？

1. Jeopardy-style CTFs

2. Cybersecurity Knowledge Benchmarks

3. Privacy Benchmarks

4. Cyber Range Exercises

5. Attack-and-Defense CTFs

實驗結果：知識分數已經不差，但實作表現落差很大

細看表現：alias1、Claude、GPT-5 與開源模型的差異

為什麼這篇對 CTI / SOC 線也重要？

1. CTI benchmark 分數不能直接外推到完整 SOC 能力

2. Agentic security 的瓶頸不只是知識，而是執行與協調

3. 未來 benchmark 會更重視組合能力，而不是單點能力

這篇論文真正的新意在哪裡？

限制與需要保留的地方

總結

免責聲明

發佈留言 取消回覆

You may also like

CyberRAG 論文閱讀分析：用 Agentic RAG 做攻擊分類、解釋與報告生成

OpenSec 論文閱讀分析：當 Incident Response Agent 不是看不懂，而是太早動手時，SOC 該怎麼辦？

近期文章

廣告

文章分類

近期留言

發佈留言取消回覆