CVE-Bench 論文閱讀分析：當 AI Agent 不再只是解 CTF，而是開始碰真實世界 Web CVE

2026 年 4 月 10 日

論文基本資訊

論文標題：A Benchmark for AI Agents’ Ability to Exploit Real-World Web Application Vulnerabilities
作者：Yuxuan Zhu、Antony Kellermann、Dylan Bowman、Philip Li、Akul Gupta、Adarsh Danda、Richard Fang、Conner Jensen、Eric Ihli、Jason Benn、Jet Geronimo、Avi Dhir、Sudhit Rao、Kaicheng Yu、Twm Stone、Daniel Kang
年份：2025
來源：arXiv:2503.17332v4
論文連結：https://arxiv.org/abs/2503.17332
主題：AI Agent Security、Offensive Benchmark、Web Exploitation、CVE、Red Teaming、Cyber Range

如果最近這一波 sectools.tw 在追的主線，是「LLM / Agent 到底能不能真正進 SOC、做 CTI、跑 incident response」，那這篇 CVE-Bench 剛好從另一個角度把問題掀開：當我們一直在討論 agent 幫不幫得上藍隊時，也必須同時問，這些 agent 現在到底已經有多接近能自己打下真實世界的 web 漏洞？

這篇論文的重要，不只是它又做了一個 benchmark，而是它把評測從抽象 CTF、短程題目、或少數手工案例，拉回到真實 CVE、真實 web application、真實 exploit 條件。也就是說，它想回答的不是「模型會不會解題」，而是：

如果把 LLM agent 放進更接近現實的漏洞利用場景，它到底能走多遠？

這篇論文想解決什麼？

作者指出，既有 cybersecurity benchmark 常有兩種問題：

太像題庫：偏 CTF、偏短程、偏單一步驟 exploit
太不像真實網站：缺少完整 web app 架構、資料庫、登入介面、輔助服務與漏洞生命周期脈絡

這造成一個很實際的落差：很多 benchmark 能測模型在 sandbox 裡「會不會做某種攻擊技巧」，卻不太能測它是否能在現實條件下理解應用架構、找出可行 attack path、再把 exploit 真的打通。

因此 CVE-Bench 想補上的空缺很清楚：為 AI agent 提供一個以真實高嚴重度 web CVE 為中心、可自動評分、可重現、而且能容納不同攻擊路徑的 benchmark。

CVE-Bench 到底是什麼？

這個 benchmark 以 40 個真實世界的 web application CVE 為核心，全部來自 NVD，而且作者特別挑 CVSS v3.1 分數至少 9.0 的高嚴重度漏洞。涵蓋的應用類型相當廣，包含：

Content management
AI / machine learning applications
Business management
Web infrastructure
Operational monitoring
E-commerce
Mail server / portal 等

這點很重要。它不是拿單一框架做一疊變形題，而是真的試圖涵蓋不同型態的 web 系統與漏洞表現方式。

它比一般 CTF benchmark 多了什麼？

我認為這篇最值得畫線的地方，是作者明確在 benchmark 裡保留了真實 exploit 的麻煩。對 agent 來說，任務不再只是找 flag，而是要：

理解應用程式的結構與對外介面
判斷漏洞可能落在哪個元件或路徑
選擇可行的攻擊方式
實際與網站、資料庫或底層服務互動
最後達成一個能被 grader 驗證的攻擊結果

這比「一段程式碼裡有沒有 SQLi」更接近真實世界，也更能反映 agentic exploitation 到底是不是真的在逼近實戰門檻。

八種標準攻擊目標：不是只有拿 shell

為了讓不同漏洞與不同 exploit path 能有一致評分方式，作者把可接受的成功條件標準化成 8 種 attack goals：

Denial-of-Service
File access
File creation（例如在 /tmp/pwned 建檔）
Database modification
Database access
Unauthorized administrator login
Privilege escalation
Outbound service requests / SSRF 類效果

這個設計很聰明，因為它避免 benchmark 被單一 exploit 形式綁死。對某些 CVE，最自然的是資料庫改寫；對另一些則可能是繞過登入、檔案讀取、甚至讓伺服器主動發出 request。作者不是要求 agent 走唯一正解，而是要求它達成可驗證的 compromise outcome。

Zero-day 與 one-day：它不只測 exploitation，也測情報條件差異

CVE-Bench 還把漏洞生命周期考慮進來，分成兩種設定：

Zero-day setting：只給任務描述，不直接給漏洞細節，agent 要自己找弱點並完成利用
One-day setting：額外提供高階漏洞描述，模擬 NVD 已揭露後的 exploit 條件

這兩種設定的價值很高，因為它們其實分別在測兩件事：

模型是否能在資訊不足下探索 attack surface
模型拿到漏洞情報後，是否真的能把 exploit workflow 打通

換句話說，這不只是「會不會打」，也是「在不同情報條件下，能不能打得動」。

這篇最辛苦、也最有價值的地方：作者真的把 exploit 重做了一遍

很多 benchmark 最大的問題，是看起來很像真實世界，實際上只是把題目包裝得更像真實世界。但 CVE-Bench 比較不一樣。作者對每個 CVE 都做了三件事：

把 vulnerable application containerize 起來
重現 reference exploit，確保漏洞真的可打
實作 grader，自動驗證 agent 是否真的成功

論文提到，單一漏洞的重現與 exploit reproduction 需要大約 5 到 24 人時。這數字本身就說明了這個 benchmark 的成本，也反映它和一般題庫式 benchmark 的本質差異：它不是只整理資料，而是在搭建一個可以讓 agent 真正失敗或成功的攻擊場。

評測了哪些 agent？

作者拿幾種代表性 agent framework 來跑，包括：

Cybench Agent：偏 ReAct-style 的資安 agent
Teams of Agents（T-Agent）：有 supervisor 與專精 hacker agents 的階層式多代理人框架
AutoGPT：更通用型的 agent framework

預設主要模型使用 gpt-4o-2024-11-20，每個 task 最多 30 個 iteration，而且每個 setting 都重跑五次，避免單次 luck 影響結論。

主要結果：最強框架也只有 13%

這篇論文最醒腦的一句話，大概就是：在更接近真實世界的 web exploit benchmark 上，現階段最強 agent framework 也只成功打下約 13% 的漏洞。

而且這個數字還是在 one-day setting、五次嘗試 下得到的。另一個較早的資安 agent baseline，在 one-day 條件下甚至只有約 2.5% 成功率。

這個結果很值得安全圈好好消化，因為它同時打破兩種過度簡化的敘事：

太樂觀的版本：AI agent 很快就能大規模自動打穿真實網站
太輕忽的版本：那些展示都只是玩具 demo，離真實 exploit 還很遠

比較準確的描述可能是：它們已經不是玩具了，但距離穩定、可擴張、可信賴的真實世界 exploitation capability，還有一大段工程與策略落差。

這篇論文真正告訴我們什麼？

我認為 CVE-Bench 至少透露了四件事：

真實世界 exploitation 的難點，不在單一步驟推理，而在長鏈互動、系統理解與策略收斂。
多代理人架構比單一 agent 更有前景，但目前提升仍有限，說明 coordination 不是萬靈丹。
只看 CTF 或 toy benchmark，很容易高估 agent 的實際攻擊能力。
對防守方來說，現在最需要的是更貼近真實工作負載的評測，而不是只看 demo 成功影片。

特別是對企業藍隊、應用安全與 AI risk 團隊來說，這篇論文的價值不只是「紅隊有多強」，而是它提供了一個更嚴肅的量尺，讓大家不要再拿抽象題庫去想像真實風險。

對藍隊與 AI 風險治理的意義

如果你是在做 AI 安全治理，CVE-Bench 很值得看，因為它把問題具體化了。你不再只是抽象地說「AI agent 可能會被濫用」，而是能開始問：

哪些類型的 web app 在 agent 面前最脆弱？
zero-day 與 one-day 條件下能力差多少？
哪一類 exploit path 最容易被 agent 自動化？
哪些 guardrail / sandbox / detection 設計最能拖慢它？

這些問題比一般「模型危不危險」更可操作，也更接近真實風險管理。

論文限制

當然，這篇也有幾個限制：

只聚焦 web application CVE，不代表其他攻擊面
40 個 CVE 雖然不小，但仍不足以覆蓋整個 exploit 生態
benchmark 仍是 sandbox，和真實網路環境、橫向移動、持久化等場景還有距離
成功率指標很重要，但還不足以完整描述 exploit 過程中的成本、隱蔽性與穩定性

但這些限制並不減損它的價值。相反地，它剛好指出下一步應該往哪裡長：更大的真實 CVE 覆蓋、更複雜的系統互依、以及更貼近實際攻防鏈的 agent evaluation。

總結

CVE-Bench 是一篇很值得追的論文，因為它把 AI agent 的網路攻擊能力，從「會不會解 CTF」往前推到「能不能在真實世界條件下打出可驗證的 exploit 結果」。

它傳達的訊息很清楚：

LLM agent 的攻擊能力正在逼近值得嚴肅看待的程度
但真實世界 exploitation 仍遠比 demo 看起來困難
多代理人與工具使用確實有幫助，但還沒到穩定突破點
如果要做 AI cyber risk assessment，必須用更像 CVE-Bench 這類 benchmark，而不是只看漂亮案例

如果你關心的是 agentic AI 的攻防邊界、web application 安全、或企業到底該怎麼衡量 AI 帶來的新型攻擊風險，那這篇論文很值得列進必讀清單。因為它問的不是「AI 會不會駭」，而是更實際的那句：

在真正的漏洞、真正的網站、真正的 exploit 成功條件面前，AI agent 到底已經走到哪一步？

免責聲明

本文由 AI 產生、整理與撰寫，內容主要依據公開論文、技術文件與可取得之研究資料進行彙整、解讀與摘要。儘管已盡力確保內容之完整性與可讀性，仍可能因模型理解限制、資料來源差異或語意轉譯過程而存在疏漏、不精確或更新延遲之處。本文內容僅供研究交流與知識分享參考，實際技術細節、實驗設定與最終結論，仍應以原始論文、官方文件及作者公開資料為準。

CVE-Bench 論文閱讀分析：當 AI Agent 不再只是解 CTF，而是開始碰真實世界 Web CVE

論文基本資訊

這篇論文想解決什麼？

CVE-Bench 到底是什麼？

它比一般 CTF benchmark 多了什麼？

八種標準攻擊目標：不是只有拿 shell

Zero-day 與 one-day：它不只測 exploitation，也測情報條件差異

這篇最辛苦、也最有價值的地方：作者真的把 exploit 重做了一遍

評測了哪些 agent？

主要結果：最強框架也只有 13%

這篇論文真正告訴我們什麼？

對藍隊與 AI 風險治理的意義

論文限制

總結

免責聲明

發佈留言取消回覆

You may also like

近期文章

廣告

文章分類

近期留言

論文基本資訊

這篇論文想解決什麼？

CVE-Bench 到底是什麼？

它比一般 CTF benchmark 多了什麼？

八種標準攻擊目標：不是只有拿 shell

Zero-day 與 one-day：它不只測 exploitation，也測情報條件差異

這篇最辛苦、也最有價值的地方：作者真的把 exploit 重做了一遍

評測了哪些 agent？

主要結果：最強框架也只有 13%

這篇論文真正告訴我們什麼？

對藍隊與 AI 風險治理的意義

論文限制

總結

免責聲明

發佈留言 取消回覆

You may also like

IRCopilot 論文閱讀分析：用大型語言模型自動化 Incident Response

論文閱讀分析：用異質圖神經網路與情境化威脅情資做 APT 行動者歸因

近期文章

廣告

文章分類

近期留言

發佈留言取消回覆