CAIBench 論文閱讀分析:當模型會答題,不等於它真的會做資安攻防
論文基本資訊
- 論文標題:Cybersecurity AI Benchmark (CAIBench): A Meta-Benchmark for Evaluating Cybersecurity AI Agents
- 作者:Víctor Mayoral-Vilches、Francesco Balassone、Luis Javier Navarrete-Lozano、Cristóbal R. J. Veas Chavez、Maite del Mundo de Torres
- 年份:2025
- 來源:arXiv:2510.24317v1
- 論文連結:https://arxiv.org/abs/2510.24317
- 主題:Cybersecurity Benchmark、AI Agent、Agentic Security、CTF、Cyber Range、CTI Benchmark、Privacy Evaluation
如果把近期這一串論文放在一起看,CAIBench 其實回答的是一個很根本、也很不舒服的問題:我們最近看到那麼多「LLM 很懂資安」「AI agent 會打靶、會寫規則、會做 CTI 推理」的結果,到底有多少只是單點能力,有多少真的能轉成接近實務工作的綜合表現?
這篇論文的價值,不在於再發明一個新的攻防 agent,而在於它試圖重新定義「怎麼評估」。作者的主張很直接:現有 benchmark 太碎片化,很多只測知識、只測單一 exploit、只測靜態問答,卻很少真的逼模型面對多步驟、對抗式、攻防並存、還帶有部署與隱私約束的情境。 如果評估框架本身就切得太窄,那我們得到的結論自然也會過度樂觀。
這篇論文想解決什麼問題?
作者把問題講得很清楚。當前資安 AI 評估有幾個結構性缺陷:
- 只測局部技能,不測整體能力:例如會做 security QA,不代表會真的 exploit;會做 exploit,不代表能同時維持防守與服務可用性。
- 靜態 benchmark 太多,動態對抗場景太少:很多測試停留在選擇題、知識問答或單輪任務,和真實攻防工作流差距很大。
- 不同 benchmark 的方法、環境、指標彼此不相容:很難做一致比較,也很難知道一個模型到底強在哪裡、弱在哪裡。
- 新興領域缺測:像機器人/cyber-physical systems、隱私保護與合規這些場景,在既有 benchmark 裡幾乎都不是核心項目。
因此,CAIBench 提出的不是單一 benchmark,而是一個 meta-benchmark:也就是把多種不同型態的 benchmark 收攏到同一個框架下,讓模型與 agent 可以在相對一致、可重現、可擴充的條件下被評估。
CAIBench 的核心主張:知識不是能力,能力也不是勞動可用性
整篇論文最值得記住的一句話,幾乎可以濃縮成:pre-trained cybersecurity knowledge does not imply attack and defense abilities.
這句話聽起來像常識,但在現在的 AI 資安討論裡,反而很容易被忽略。模型答得出 CTI 題目、知道 CVE 與 ATT&CK,不代表它能:
- 在 Cyber Range 裡走完一段完整攻擊鏈
- 在 Attack-and-Defense 場景裡一邊找洞一邊補洞
- 在服務必須持續可用的條件下做即時決策
- 在遇到真實對手時穩定調整策略
作者因此把 benchmark 的目標往前推一步:不只是測「懂不懂」,而是盡量接近 labor-relevant 的表現,也就是更貼近真實資安工作裡有沒有用、能不能用、可不可信地用。
CAIBench 的整體架構
CAIBench 把整個框架拆成三個維度:
- Categories:評測類別
- Difficulty:難度分級
- Infrastructure:底層執行方式
其中最核心的是五大類 benchmark:
- Jeopardy-style CTFs
- Attack-and-Defense CTFs
- Cyber Range Exercises
- Cybersecurity Knowledge Benchmarks
- Privacy Benchmarks
這五類之所以重要,在於它們分別對應不同層次的能力:
- CTF 偏向離散技能與任務解題
- A&D 偏向對抗式、即時、平衡攻守的能力
- Cyber Range 偏向較完整的情境與操作鏈
- Knowledge Bench 偏向理論知識、理解與推理
- Privacy Bench 則補上現實部署中很容易被忽略的合規與敏感資料處理能力
這樣的設計,比單一 benchmark 更接近現實:資安工作本來就不是只靠一種能力完成,而是多種能力在不同壓力下共同作用。
難度設計:從新手到專業研究者
CAIBench 還做了一個我認為很實用的設計:把任務難度明確分成五級,從 very easy 到 very hard,對應的對象從初學者一路拉到專業資安人員與頂尖研究者。
這件事的意義不只是好看,而是讓 benchmark 不會只回答「模型有沒有過」,而能更細地回答:
- 模型目前大概停在哪個熟練度層級?
- 哪些任務已經飽和?
- 哪些任務仍然明顯需要人類專家?
對企業與研究團隊來說,這種分級其實比單一平均分數更有決策價值。
兩種基礎設施:Docker-based 與 Scripted Evaluation
作者把整個框架的底層執行分成兩種:
- Docker-based benchmarks:用來跑實作型、互動型任務,例如 CTF、A&D、Cyber Range。
- Scripted evaluation benchmarks:用來跑知識與隱私類任務,例如 SecEval、CyberMetric、CTIBench、CyberPII-Bench。
這個分法很關鍵。它承認一個現實:不是所有資安能力都應該被塞進同一種測試形式。 有些東西就是該在容器化、可操作環境裡測;有些東西則更適合用結構化資料與腳本評估。把兩者硬混在一起,反而容易讓評估變得失真。
五大類 benchmark 各自測什麼?
1. Jeopardy-style CTFs
這一類涵蓋 Base、Cybench、RCTF2、AutoPenBench 等,總共包含 web、crypto、reverse engineering、forensics、pwn 以及 robotics 等題型。作者特別指出:
- Base 是較基礎的滲透測試能力評估
- Cybench 則更像目前產業常用的統一框架之一
- AutoPenBench 偏向自動化滲透測試情境
- RCTF2 則是最值得注意的新補充,因為它把機器人與 cyber-physical systems 安全正式拉進 benchmark 版圖
這裡最有意思的地方在於:作者不是再做一個新的通用 CTF 集,而是刻意把傳統 IT、agentic pentest、以及 robotics security 串進同一個框架。
2. Cybersecurity Knowledge Benchmarks
這一類納入了:
- SecEval
- CyberMetric
- CTIBench
對 sectools.tw 這條線來說,這裡最重要的當然是 CTIBench 被納入,且作者選擇其中最能代表 CTI 能力的兩個子任務:
- CTI MCQ:測知識理解與概念掌握
- CTI RCM:測推理、關聯與情境判讀
這代表 CAIBench 雖然不是純 CTI 論文,但它明確承認:CTI 不只是附屬能力,而是整個資安 AI 評估中不可缺的 intelligence layer。
3. Privacy Benchmarks
這篇另一個很值得肯定的地方,是它沒有把隱私視為附帶議題,而是單獨做出 CyberPII-Bench。這個 benchmark 針對 PERSON、EMAIL_ADDRESS、IP_ADDRESS、CREDIT_CARD 等 PII 類別,使用 precision、recall、F1、F2 來評估 anonymization 與敏感資訊處理能力。
這很重要,因為真實世界中的 security AI 不是只要會攻防就好,它還常常要處理:
- 攻防演練資料
- 事件調查紀錄
- 客戶環境資訊
- 可能受法規約束的個資
若一個模型在資安能力上再強,但對敏感資訊處理一塌糊塗,那它在很多企業場景裡根本不能上線。
4. Cyber Range Exercises
CAIBench 也納入 10 個 Cyber Range、共 14 個 challenge。這些情境從 WordPress enumeration、credential brute force,到 reverse engineering、privilege escalation、command injection、Shellshock、traffic analysis 都有。
這類任務的價值在於,它不像選擇題那麼靜態,也不像單題 CTF 那麼切碎,而是更接近一段有脈絡、需要連續操作與環境感知的工作流。某種程度上,這比純知識題更能測出 agent 到底有沒有「把事情做完」的能力。
5. Attack-and-Defense CTFs
這是整篇論文我最喜歡的一塊。作者認為,真實資安工作不是只攻不守,也不是只守不攻,而是常常同時存在:
- 你得找洞
- 你得補洞
- 你得維持服務
- 你還得在對手也在動的情況下持續調整
因此,A&D 類任務成了 CAIBench 最能逼近現實壓力的部分。這 10 個挑戰涵蓋 command injection、SQL injection、SSTI、prototype pollution、pickle RCE、lateral movement 等典型技術,並把評分建立在:
- 攻擊得分
- 防守得分
- 服務可用性
- 即時對抗中的勝負結果
這種設計的技術意義很大,因為它測的不只是 exploit 成功率,而是在受限時間與對抗條件下,模型能不能做資源分配、策略平衡與即時反應。
實驗結果:知識分數已經不差,但實作表現落差很大
CAIBench 最有說服力的部分,來自它把不同類型 benchmark 拉到一起後,得出一個非常一致的發現:目前模型在知識題上已經接近飽和,但一進到需要多步驟操作與對抗調整的場景,表現就明顯掉下來。
作者摘要裡給出的整體趨勢是:
- 安全知識類指標約可達 70% 左右成功率
- 多步驟 adversarial A&D 場景通常只剩 20–40%
- robotic targets 甚至只有約 22%
換句話說,現在很多模型在回答資安知識、CTI 題目、漏洞概念時已經顯得「很像懂了」,但一旦要它們實際在複雜環境中把多個步驟串起來,能力就還遠未成熟。
細看表現:alias1、Claude、GPT-5 與開源模型的差異
論文展示的表格中,作者比較了自家 alias1 / alias0,以及 gpt-5、claude-sonnet-4.5、gemini-2.5-pro、qwen3-32b、deepseek-R1 等模型/agent 組合。
從結果來看,有幾個重點:
- 知識 benchmark 普遍比實作 benchmark 好看很多。例如 alias1 在 CyberMetric 可達 89%,在 CTI MCQ 與 CTI RCM 分別約 73%、74%。
- Jeopardy-style CTF 還能看到一定成功率,例如 claude-sonnet-4.5 在 Base benchmark 達 75%,alias1 在 Base 也有 67%。
- 一進入 Attack-and-Defense 或更複雜 Cyber Range,成功率與穩定度就明顯下降。
- 模型本身與 agent scaffolding 的搭配差很多。作者甚至指出,適合的框架搭配可造成最高 2.6× 的效能差異。
這裡有個非常重要的訊息:資安 agent 的能力,並不是模型參數越大就自然越強,而是高度依賴框架設計、工具使用方式、上下文管理與任務編排。 這也和近期 agentic security 論文的結論高度一致。
為什麼這篇對 CTI / SOC 線也重要?
雖然 CAIBench 的範圍比 CTI 更大,但它對 CTI / SOC 研究其實有三個很直接的提醒:
1. CTI benchmark 分數不能直接外推到完整 SOC 能力
模型在 CTIBench、CyberMetric 或其他知識型 benchmark 上表現好,最多只能說明它在某些 threat knowledge 與推理切片上具備潛力;不代表它在真實 SOC workflow 中就能可靠地處理長鏈任務。
2. Agentic security 的瓶頸不只是知識,而是執行與協調
這篇論文把「懂」和「會做」之間的落差量化得很清楚。對近期那些強調 LLM agent 可做調查、寫規則、做 attribution 的研究來說,CAIBench 提供了一個更嚴格的背景:要證明 agentic security 真有價值,不能只證明它會回答,還得證明它在動態、受壓、對抗的場景下不會崩。
3. 未來 benchmark 會更重視組合能力,而不是單點能力
CTI、SOC、incident response、privacy、cyber range,其實不是分離的島。真正可落地的 AI security system,最終一定要跨這些模塊運作。CAIBench 的 meta-benchmark 思路,正是在往這個方向推。
這篇論文真正的新意在哪裡?
我認為 CAIBench 的新意主要有四點:
- 把資安 AI benchmark 從單一測驗推進成 meta-benchmark,開始談整體評估而不是局部刷榜。
- 首次系統性納入同時攻防的 A&D 評估,這比單邊攻擊或單邊防守都更接近真實作業。
- 把 robotics / cyber-physical security 正式納入 benchmark 視野,這讓「未來安全系統」的評估不再只侷限於傳統 IT。
- 把 privacy-preserving capability 當成一等公民,而非評估框架外的附註。
限制與需要保留的地方
當然,這篇也不是沒有問題。
- labor-relevance 仍然是目標,不是已被充分證明的事實。作者自己也承認,目前仍無法保證 benchmark 分數能直接映射到真實資安勞動能力。
- 框架很廣,但不同子 benchmark 的成熟度不一。有些任務已接近飽和,有些仍很早期,放在一起比較時要注意解讀。
- 結果部分仍帶有特定框架與工具鏈偏差。某些 agent 在某類場景中的優勢,可能來自 scaffolding,而不純粹是模型本體。
- 對 defender workflow 的細緻評估仍可再深化。例如 SOC 中的 triage、escalation、evidence documentation、human handoff 等,未來還需要更精細 benchmark。
總結
CAIBench 最值得看的地方,不是它再次證明某個模型在某個表格上拿了高分,而是它把一件很多人心裡都知道、卻很少被系統性量化的事情講明白:資安知識、資安推理、資安執行、對抗式調整與合規處理,根本不是同一種能力。
對近期這波 CTI/AI/benchmark/agentic security 論文來說,CAIBench 剛好像一面冷水:它提醒我們,模型可以很會回答,卻仍然不會工作;可以在知識題拿高分,卻仍然在真實攻防裡顯得笨重、脆弱、缺乏適應力。 如果下一階段真的要把 AI 放進 SOC、CTI、甚至更高風險的安全作業環境,那未來最重要的競爭,恐怕不只是誰的模型更聰明,而是誰的 benchmark 更接近現實、誰的 agent 框架更能把知識轉成可靠行動。
免責聲明
本文由 AI 產生、整理與撰寫。內容主要依據公開論文與可取得之研究資料進行整理與分析;實際技術細節、實驗設定與最終結論,仍應以原始論文及作者公開資料為準。
