CVE-Bench 論文閱讀分析:當 AI Agent 不再只是解 CTF,而是開始碰真實世界 Web CVE
論文基本資訊
- 論文標題:A Benchmark for AI Agents’ Ability to Exploit Real-World Web Application Vulnerabilities
- 作者:Yuxuan Zhu、Antony Kellermann、Dylan Bowman、Philip Li、Akul Gupta、Adarsh Danda、Richard Fang、Conner Jensen、Eric Ihli、Jason Benn、Jet Geronimo、Avi Dhir、Sudhit Rao、Kaicheng Yu、Twm Stone、Daniel Kang
- 年份:2025
- 來源:arXiv:2503.17332v4
- 論文連結:https://arxiv.org/abs/2503.17332
- 主題:AI Agent Security、Offensive Benchmark、Web Exploitation、CVE、Red Teaming、Cyber Range
如果最近這一波 sectools.tw 在追的主線,是「LLM / Agent 到底能不能真正進 SOC、做 CTI、跑 incident response」,那這篇 CVE-Bench 剛好從另一個角度把問題掀開:當我們一直在討論 agent 幫不幫得上藍隊時,也必須同時問,這些 agent 現在到底已經有多接近能自己打下真實世界的 web 漏洞?
這篇論文的重要,不只是它又做了一個 benchmark,而是它把評測從抽象 CTF、短程題目、或少數手工案例,拉回到真實 CVE、真實 web application、真實 exploit 條件。也就是說,它想回答的不是「模型會不會解題」,而是:
如果把 LLM agent 放進更接近現實的漏洞利用場景,它到底能走多遠?
這篇論文想解決什麼?
作者指出,既有 cybersecurity benchmark 常有兩種問題:
- 太像題庫:偏 CTF、偏短程、偏單一步驟 exploit
- 太不像真實網站:缺少完整 web app 架構、資料庫、登入介面、輔助服務與漏洞生命周期脈絡
這造成一個很實際的落差:很多 benchmark 能測模型在 sandbox 裡「會不會做某種攻擊技巧」,卻不太能測它是否能在現實條件下理解應用架構、找出可行 attack path、再把 exploit 真的打通。
因此 CVE-Bench 想補上的空缺很清楚:為 AI agent 提供一個以真實高嚴重度 web CVE 為中心、可自動評分、可重現、而且能容納不同攻擊路徑的 benchmark。
CVE-Bench 到底是什麼?
這個 benchmark 以 40 個真實世界的 web application CVE 為核心,全部來自 NVD,而且作者特別挑 CVSS v3.1 分數至少 9.0 的高嚴重度漏洞。涵蓋的應用類型相當廣,包含:
- Content management
- AI / machine learning applications
- Business management
- Web infrastructure
- Operational monitoring
- E-commerce
- Mail server / portal 等
這點很重要。它不是拿單一框架做一疊變形題,而是真的試圖涵蓋不同型態的 web 系統與漏洞表現方式。
它比一般 CTF benchmark 多了什麼?
我認為這篇最值得畫線的地方,是作者明確在 benchmark 裡保留了真實 exploit 的麻煩。對 agent 來說,任務不再只是找 flag,而是要:
- 理解應用程式的結構與對外介面
- 判斷漏洞可能落在哪個元件或路徑
- 選擇可行的攻擊方式
- 實際與網站、資料庫或底層服務互動
- 最後達成一個能被 grader 驗證的攻擊結果
這比「一段程式碼裡有沒有 SQLi」更接近真實世界,也更能反映 agentic exploitation 到底是不是真的在逼近實戰門檻。
八種標準攻擊目標:不是只有拿 shell
為了讓不同漏洞與不同 exploit path 能有一致評分方式,作者把可接受的成功條件標準化成 8 種 attack goals:
- Denial-of-Service
- File access
- File creation(例如在
/tmp/pwned建檔) - Database modification
- Database access
- Unauthorized administrator login
- Privilege escalation
- Outbound service requests / SSRF 類效果
這個設計很聰明,因為它避免 benchmark 被單一 exploit 形式綁死。對某些 CVE,最自然的是資料庫改寫;對另一些則可能是繞過登入、檔案讀取、甚至讓伺服器主動發出 request。作者不是要求 agent 走唯一正解,而是要求它達成可驗證的 compromise outcome。
Zero-day 與 one-day:它不只測 exploitation,也測情報條件差異
CVE-Bench 還把漏洞生命周期考慮進來,分成兩種設定:
- Zero-day setting:只給任務描述,不直接給漏洞細節,agent 要自己找弱點並完成利用
- One-day setting:額外提供高階漏洞描述,模擬 NVD 已揭露後的 exploit 條件
這兩種設定的價值很高,因為它們其實分別在測兩件事:
- 模型是否能在資訊不足下探索 attack surface
- 模型拿到漏洞情報後,是否真的能把 exploit workflow 打通
換句話說,這不只是「會不會打」,也是「在不同情報條件下,能不能打得動」。
這篇最辛苦、也最有價值的地方:作者真的把 exploit 重做了一遍
很多 benchmark 最大的問題,是看起來很像真實世界,實際上只是把題目包裝得更像真實世界。但 CVE-Bench 比較不一樣。作者對每個 CVE 都做了三件事:
- 把 vulnerable application containerize 起來
- 重現 reference exploit,確保漏洞真的可打
- 實作 grader,自動驗證 agent 是否真的成功
論文提到,單一漏洞的重現與 exploit reproduction 需要大約 5 到 24 人時。這數字本身就說明了這個 benchmark 的成本,也反映它和一般題庫式 benchmark 的本質差異:它不是只整理資料,而是在搭建一個可以讓 agent 真正失敗或成功的攻擊場。
評測了哪些 agent?
作者拿幾種代表性 agent framework 來跑,包括:
- Cybench Agent:偏 ReAct-style 的資安 agent
- Teams of Agents(T-Agent):有 supervisor 與專精 hacker agents 的階層式多代理人框架
- AutoGPT:更通用型的 agent framework
預設主要模型使用 gpt-4o-2024-11-20,每個 task 最多 30 個 iteration,而且每個 setting 都重跑五次,避免單次 luck 影響結論。
主要結果:最強框架也只有 13%
這篇論文最醒腦的一句話,大概就是:在更接近真實世界的 web exploit benchmark 上,現階段最強 agent framework 也只成功打下約 13% 的漏洞。
而且這個數字還是在 one-day setting、五次嘗試 下得到的。另一個較早的資安 agent baseline,在 one-day 條件下甚至只有約 2.5% 成功率。
這個結果很值得安全圈好好消化,因為它同時打破兩種過度簡化的敘事:
- 太樂觀的版本:AI agent 很快就能大規模自動打穿真實網站
- 太輕忽的版本:那些展示都只是玩具 demo,離真實 exploit 還很遠
比較準確的描述可能是:它們已經不是玩具了,但距離穩定、可擴張、可信賴的真實世界 exploitation capability,還有一大段工程與策略落差。
這篇論文真正告訴我們什麼?
我認為 CVE-Bench 至少透露了四件事:
- 真實世界 exploitation 的難點,不在單一步驟推理,而在長鏈互動、系統理解與策略收斂。
- 多代理人架構比單一 agent 更有前景,但目前提升仍有限,說明 coordination 不是萬靈丹。
- 只看 CTF 或 toy benchmark,很容易高估 agent 的實際攻擊能力。
- 對防守方來說,現在最需要的是更貼近真實工作負載的評測,而不是只看 demo 成功影片。
特別是對企業藍隊、應用安全與 AI risk 團隊來說,這篇論文的價值不只是「紅隊有多強」,而是它提供了一個更嚴肅的量尺,讓大家不要再拿抽象題庫去想像真實風險。
對藍隊與 AI 風險治理的意義
如果你是在做 AI 安全治理,CVE-Bench 很值得看,因為它把問題具體化了。你不再只是抽象地說「AI agent 可能會被濫用」,而是能開始問:
- 哪些類型的 web app 在 agent 面前最脆弱?
- zero-day 與 one-day 條件下能力差多少?
- 哪一類 exploit path 最容易被 agent 自動化?
- 哪些 guardrail / sandbox / detection 設計最能拖慢它?
這些問題比一般「模型危不危險」更可操作,也更接近真實風險管理。
論文限制
當然,這篇也有幾個限制:
- 只聚焦 web application CVE,不代表其他攻擊面
- 40 個 CVE 雖然不小,但仍不足以覆蓋整個 exploit 生態
- benchmark 仍是 sandbox,和真實網路環境、橫向移動、持久化等場景還有距離
- 成功率指標很重要,但還不足以完整描述 exploit 過程中的成本、隱蔽性與穩定性
但這些限制並不減損它的價值。相反地,它剛好指出下一步應該往哪裡長:更大的真實 CVE 覆蓋、更複雜的系統互依、以及更貼近實際攻防鏈的 agent evaluation。
總結
CVE-Bench 是一篇很值得追的論文,因為它把 AI agent 的網路攻擊能力,從「會不會解 CTF」往前推到「能不能在真實世界條件下打出可驗證的 exploit 結果」。
它傳達的訊息很清楚:
- LLM agent 的攻擊能力正在逼近值得嚴肅看待的程度
- 但真實世界 exploitation 仍遠比 demo 看起來困難
- 多代理人與工具使用確實有幫助,但還沒到穩定突破點
- 如果要做 AI cyber risk assessment,必須用更像 CVE-Bench 這類 benchmark,而不是只看漂亮案例
如果你關心的是 agentic AI 的攻防邊界、web application 安全、或企業到底該怎麼衡量 AI 帶來的新型攻擊風險,那這篇論文很值得列進必讀清單。因為它問的不是「AI 會不會駭」,而是更實際的那句:
在真正的漏洞、真正的網站、真正的 exploit 成功條件面前,AI agent 到底已經走到哪一步?
免責聲明
本文由 AI 產生、整理與撰寫,內容主要依據公開論文、技術文件與可取得之研究資料進行彙整、解讀與摘要。儘管已盡力確保內容之完整性與可讀性,仍可能因模型理解限制、資料來源差異或語意轉譯過程而存在疏漏、不精確或更新延遲之處。本文內容僅供研究交流與知識分享參考,實際技術細節、實驗設定與最終結論,仍應以原始論文、官方文件及作者公開資料為準。
