CVE-Bench 論文閱讀分析:當 AI Agent 不再只是解 CTF,而是開始碰真實世界 Web CVE

論文基本資訊

  • 論文標題:A Benchmark for AI Agents’ Ability to Exploit Real-World Web Application Vulnerabilities
  • 作者:Yuxuan Zhu、Antony Kellermann、Dylan Bowman、Philip Li、Akul Gupta、Adarsh Danda、Richard Fang、Conner Jensen、Eric Ihli、Jason Benn、Jet Geronimo、Avi Dhir、Sudhit Rao、Kaicheng Yu、Twm Stone、Daniel Kang
  • 年份:2025
  • 來源:arXiv:2503.17332v4
  • 論文連結:https://arxiv.org/abs/2503.17332
  • 主題:AI Agent Security、Offensive Benchmark、Web Exploitation、CVE、Red Teaming、Cyber Range

如果最近這一波 sectools.tw 在追的主線,是「LLM / Agent 到底能不能真正進 SOC、做 CTI、跑 incident response」,那這篇 CVE-Bench 剛好從另一個角度把問題掀開:當我們一直在討論 agent 幫不幫得上藍隊時,也必須同時問,這些 agent 現在到底已經有多接近能自己打下真實世界的 web 漏洞?

這篇論文的重要,不只是它又做了一個 benchmark,而是它把評測從抽象 CTF、短程題目、或少數手工案例,拉回到真實 CVE、真實 web application、真實 exploit 條件。也就是說,它想回答的不是「模型會不會解題」,而是:

如果把 LLM agent 放進更接近現實的漏洞利用場景,它到底能走多遠?

這篇論文想解決什麼?

作者指出,既有 cybersecurity benchmark 常有兩種問題:

  • 太像題庫:偏 CTF、偏短程、偏單一步驟 exploit
  • 太不像真實網站:缺少完整 web app 架構、資料庫、登入介面、輔助服務與漏洞生命周期脈絡

這造成一個很實際的落差:很多 benchmark 能測模型在 sandbox 裡「會不會做某種攻擊技巧」,卻不太能測它是否能在現實條件下理解應用架構、找出可行 attack path、再把 exploit 真的打通。

因此 CVE-Bench 想補上的空缺很清楚:為 AI agent 提供一個以真實高嚴重度 web CVE 為中心、可自動評分、可重現、而且能容納不同攻擊路徑的 benchmark。

CVE-Bench 到底是什麼?

這個 benchmark 以 40 個真實世界的 web application CVE 為核心,全部來自 NVD,而且作者特別挑 CVSS v3.1 分數至少 9.0 的高嚴重度漏洞。涵蓋的應用類型相當廣,包含:

  • Content management
  • AI / machine learning applications
  • Business management
  • Web infrastructure
  • Operational monitoring
  • E-commerce
  • Mail server / portal 等

這點很重要。它不是拿單一框架做一疊變形題,而是真的試圖涵蓋不同型態的 web 系統與漏洞表現方式。

它比一般 CTF benchmark 多了什麼?

我認為這篇最值得畫線的地方,是作者明確在 benchmark 裡保留了真實 exploit 的麻煩。對 agent 來說,任務不再只是找 flag,而是要:

  • 理解應用程式的結構與對外介面
  • 判斷漏洞可能落在哪個元件或路徑
  • 選擇可行的攻擊方式
  • 實際與網站、資料庫或底層服務互動
  • 最後達成一個能被 grader 驗證的攻擊結果

這比「一段程式碼裡有沒有 SQLi」更接近真實世界,也更能反映 agentic exploitation 到底是不是真的在逼近實戰門檻。

八種標準攻擊目標:不是只有拿 shell

為了讓不同漏洞與不同 exploit path 能有一致評分方式,作者把可接受的成功條件標準化成 8 種 attack goals

  1. Denial-of-Service
  2. File access
  3. File creation(例如在 /tmp/pwned 建檔)
  4. Database modification
  5. Database access
  6. Unauthorized administrator login
  7. Privilege escalation
  8. Outbound service requests / SSRF 類效果

這個設計很聰明,因為它避免 benchmark 被單一 exploit 形式綁死。對某些 CVE,最自然的是資料庫改寫;對另一些則可能是繞過登入、檔案讀取、甚至讓伺服器主動發出 request。作者不是要求 agent 走唯一正解,而是要求它達成可驗證的 compromise outcome。

Zero-day 與 one-day:它不只測 exploitation,也測情報條件差異

CVE-Bench 還把漏洞生命周期考慮進來,分成兩種設定:

  • Zero-day setting:只給任務描述,不直接給漏洞細節,agent 要自己找弱點並完成利用
  • One-day setting:額外提供高階漏洞描述,模擬 NVD 已揭露後的 exploit 條件

這兩種設定的價值很高,因為它們其實分別在測兩件事:

  • 模型是否能在資訊不足下探索 attack surface
  • 模型拿到漏洞情報後,是否真的能把 exploit workflow 打通

換句話說,這不只是「會不會打」,也是「在不同情報條件下,能不能打得動」。

這篇最辛苦、也最有價值的地方:作者真的把 exploit 重做了一遍

很多 benchmark 最大的問題,是看起來很像真實世界,實際上只是把題目包裝得更像真實世界。但 CVE-Bench 比較不一樣。作者對每個 CVE 都做了三件事:

  1. 把 vulnerable application containerize 起來
  2. 重現 reference exploit,確保漏洞真的可打
  3. 實作 grader,自動驗證 agent 是否真的成功

論文提到,單一漏洞的重現與 exploit reproduction 需要大約 5 到 24 人時。這數字本身就說明了這個 benchmark 的成本,也反映它和一般題庫式 benchmark 的本質差異:它不是只整理資料,而是在搭建一個可以讓 agent 真正失敗或成功的攻擊場。

評測了哪些 agent?

作者拿幾種代表性 agent framework 來跑,包括:

  • Cybench Agent:偏 ReAct-style 的資安 agent
  • Teams of Agents(T-Agent):有 supervisor 與專精 hacker agents 的階層式多代理人框架
  • AutoGPT:更通用型的 agent framework

預設主要模型使用 gpt-4o-2024-11-20,每個 task 最多 30 個 iteration,而且每個 setting 都重跑五次,避免單次 luck 影響結論。

主要結果:最強框架也只有 13%

這篇論文最醒腦的一句話,大概就是:在更接近真實世界的 web exploit benchmark 上,現階段最強 agent framework 也只成功打下約 13% 的漏洞。

而且這個數字還是在 one-day setting、五次嘗試 下得到的。另一個較早的資安 agent baseline,在 one-day 條件下甚至只有約 2.5% 成功率。

這個結果很值得安全圈好好消化,因為它同時打破兩種過度簡化的敘事:

  • 太樂觀的版本:AI agent 很快就能大規模自動打穿真實網站
  • 太輕忽的版本:那些展示都只是玩具 demo,離真實 exploit 還很遠

比較準確的描述可能是:它們已經不是玩具了,但距離穩定、可擴張、可信賴的真實世界 exploitation capability,還有一大段工程與策略落差。

這篇論文真正告訴我們什麼?

我認為 CVE-Bench 至少透露了四件事:

  1. 真實世界 exploitation 的難點,不在單一步驟推理,而在長鏈互動、系統理解與策略收斂。
  2. 多代理人架構比單一 agent 更有前景,但目前提升仍有限,說明 coordination 不是萬靈丹。
  3. 只看 CTF 或 toy benchmark,很容易高估 agent 的實際攻擊能力。
  4. 對防守方來說,現在最需要的是更貼近真實工作負載的評測,而不是只看 demo 成功影片。

特別是對企業藍隊、應用安全與 AI risk 團隊來說,這篇論文的價值不只是「紅隊有多強」,而是它提供了一個更嚴肅的量尺,讓大家不要再拿抽象題庫去想像真實風險。

對藍隊與 AI 風險治理的意義

如果你是在做 AI 安全治理,CVE-Bench 很值得看,因為它把問題具體化了。你不再只是抽象地說「AI agent 可能會被濫用」,而是能開始問:

  • 哪些類型的 web app 在 agent 面前最脆弱?
  • zero-day 與 one-day 條件下能力差多少?
  • 哪一類 exploit path 最容易被 agent 自動化?
  • 哪些 guardrail / sandbox / detection 設計最能拖慢它?

這些問題比一般「模型危不危險」更可操作,也更接近真實風險管理。

論文限制

當然,這篇也有幾個限制:

  • 只聚焦 web application CVE,不代表其他攻擊面
  • 40 個 CVE 雖然不小,但仍不足以覆蓋整個 exploit 生態
  • benchmark 仍是 sandbox,和真實網路環境、橫向移動、持久化等場景還有距離
  • 成功率指標很重要,但還不足以完整描述 exploit 過程中的成本、隱蔽性與穩定性

但這些限制並不減損它的價值。相反地,它剛好指出下一步應該往哪裡長:更大的真實 CVE 覆蓋、更複雜的系統互依、以及更貼近實際攻防鏈的 agent evaluation。

總結

CVE-Bench 是一篇很值得追的論文,因為它把 AI agent 的網路攻擊能力,從「會不會解 CTF」往前推到「能不能在真實世界條件下打出可驗證的 exploit 結果」。

它傳達的訊息很清楚:

  • LLM agent 的攻擊能力正在逼近值得嚴肅看待的程度
  • 但真實世界 exploitation 仍遠比 demo 看起來困難
  • 多代理人與工具使用確實有幫助,但還沒到穩定突破點
  • 如果要做 AI cyber risk assessment,必須用更像 CVE-Bench 這類 benchmark,而不是只看漂亮案例

如果你關心的是 agentic AI 的攻防邊界、web application 安全、或企業到底該怎麼衡量 AI 帶來的新型攻擊風險,那這篇論文很值得列進必讀清單。因為它問的不是「AI 會不會駭」,而是更實際的那句:

在真正的漏洞、真正的網站、真正的 exploit 成功條件面前,AI agent 到底已經走到哪一步?

免責聲明

本文由 AI 產生、整理與撰寫,內容主要依據公開論文、技術文件與可取得之研究資料進行彙整、解讀與摘要。儘管已盡力確保內容之完整性與可讀性,仍可能因模型理解限制、資料來源差異或語意轉譯過程而存在疏漏、不精確或更新延遲之處。本文內容僅供研究交流與知識分享參考,實際技術細節、實驗設定與最終結論,仍應以原始論文、官方文件及作者公開資料為準。

You may also like