ARTEMIS 論文閱讀分析:當 AI Agent 開始在真實企業網路裡打滲透測試,評測就不能再只看 CTF
論文基本資訊
- 論文標題:Comparing AI Agents to Cybersecurity Professionals in Real-World Penetration Testing
- 作者:Justin W. Lin、Eliot Krzysztof Jones、Donovan Julian Jasper、Ethan Jun-shen Ho、Anna Wu、Arnold Tianyi Yang、Neil Perry、Andy Zou、Matt Fredrikson、J. Zico Kolter、Percy Liang、Dan Boneh、Daniel E. Ho
- 年份:2025(v2 於 2026 更新)
- 來源:arXiv:2512.09882
- 論文連結:https://arxiv.org/abs/2512.09882
- 主題:Offensive Security、AI Agent、Penetration Testing、Human-vs-Agent Evaluation、Multi-Agent、Real-World Benchmark
最近幾年談 AI x 資安,最常見的問題不是「模型會不會寫 exploit」,而是更尷尬也更重要的那一題:如果把 AI agent 放進真的企業網路裡,它到底能不能跟真人滲透測試員打?
這篇 Comparing AI Agents to Cybersecurity Professionals in Real-World Penetration Testing 值得讀,不是因為它又做了一個 CTF leaderboard,而是它直接把問題拉到真實場域。作者找來 10 位資安專業人士,同時讓 6 個既有 AI agent / scaffold 加上一個新設計的多代理框架 ARTEMIS,去打同一個大型大學真實網路環境:約 8,000 台主機、12 個子網,其中一部分還要透過 VPN 才能進入。
這個設定的重要性在於,它測的不是「你能不能在乾淨題目裡找 flag」,而是你能不能在充滿雜訊、權限限制、異質系統、真實營運風險與流程摩擦的環境裡,持續找到有價值、可驗證、可提交的弱點。
這篇論文想回答的核心問題
作者的出發點很直接:現有 benchmark 雖然多,但大多還是抽象化過頭。CTF 缺乏 production noise,CVE reproduction benchmark 又往往是針對已知目標與已知漏洞條件;可是真實世界的滲透測試不是這樣。
真實攻擊與真實 pentest 更像是:
- 先做大量枚舉與篩選
- 在模糊訊號中判斷哪裡值得深挖
- 把錯誤線索快速捨棄
- 把多個小 misconfiguration 串成可利用路徑
- 在不把 production 打掛的前提下驗證 impact
所以這篇論文真正要問的是:
當環境從 benchmark 變成真實企業網路後,AI agent 的 offensive security 能力到底站在什麼位置?它只是會 demo,還是真的開始接近專業人員?
研究設計為什麼夠硬?
這篇 paper 最強的地方,是它沒有偷簡化場景。作者直接在一個大型研究型大學的真實資產範圍內做評測,環境包含 Unix-based systems、IoT、少量 Windows 與各種 embedded systems。參與者每人都拿到學生命名等級的帳號、Kali VM、明確的 scope 與安全規則,並被要求投入至少 10 個工作小時。
更重要的是,作者沒有忽略 live penetration test 的風險。他們特別把幾件事講清楚:
- availability 風險:大規模掃描本身就可能傷到 production service
- integrity 風險:像 SQL injection 這類驗證若做太猛,可能直接破壞資料
- confidentiality 風險:exploit 驗證可能碰觸敏感資料
- agent 額外風險:AI agent 不穩定、容易脫軌,因此研究期間有人類研究員與校方 IT 雙重監看
這點很關鍵。因為它提醒我們:把 agent 放進真實環境的門檻,不只是能力夠不夠,而是治理、監控與 kill-switch 做得夠不夠。
評分方式:不是只算找到幾個洞
作者知道單純用「數量」評分很粗糙,所以他們設計了一個同時考慮 technical complexity 與 business impact 的總分框架。
總分概念上是:
S_total = Σ (technical complexity + weighted criticality)
其中 technical complexity 又拆成:
- detection complexity:你要多懂環境、多會找,才能看出這是問題
- exploit complexity:你是否真的把漏洞 impact 驗出來
若只是 verification-only、沒有真正 exploit,分數會被軟性扣減。這個設計很合理,因為它在鼓勵的是從發現走到驗證的完整能力,而不是只會丟一堆猜測性的 finding。
另外,critical / high / medium / low / informational 還有不同權重。也就是說,這篇論文不是在比誰比較會刷低風險雜項,而是在比誰更能挖出技術上更難、業務上更痛的問題。
ARTEMIS 是什麼?為什麼它能衝到第二名?
作者提出的新框架叫 ARTEMIS(Automated Red Teaming Engine with Multi-agent Intelligent Supervision)。核心不是單一 prompt loop,而是一個更接近 production offensive workflow 的多代理系統,主要有三個部件:
- Supervisor:高層任務管理、工作拆解、追蹤進度
- Arbitrary sub-agents:可動態生成、依任務配專長 prompt 的子代理
- Triager:幫忙確認 submission 是否可重現、是否值得送出,降低 duplicate 與 false positive
論文特別強調幾個設計點:
- 有 task list 與 note-taking,不是做一步忘一步
- 有 smart summarization,能讓長時間作業跨 session 延續
- 子代理不是硬套同一套 prompt,而是由 prompt-generation module 動態生成 task-specific system prompt
- 能切 session、清 context、再接續跑,避免長工時下 context 爆炸
換句話說,ARTEMIS 的勝負點不是單步 exploit 特技,而是長程 offensive workflow orchestration:記得做過什麼、知道下一步該找誰、能平行化探索、還能在送件前先把垃圾 finding 篩掉。
主要結果:AI 已經不是玩具,但也還沒全面贏
論文最吸睛的結果是:ARTEMIS 在整體排行榜拿到第二名,找到 9 個有效漏洞,有效提交率約 82%,表現勝過 10 位人類參與者中的 9 位。
這個結果很重,因為它不是在沙盒題目裡拿 pass rate,而是在 live enterprise environment 裡打出來的。這表示:
- 不是所有 AI agent 都很強:既有 scaffold 像 Codex、CyAgent 整體仍落後多數真人
- 但 agent architecture 差異已經開始決定勝負:不是「模型會不會」,而是「系統怎麼把模型能力組起來」
- 最強 agent 已經逼近頂尖人類的技術層級:至少在某些類型任務上,已不是純展示品
作者也指出,AI agent 有幾個明顯優勢:
- systematic enumeration:對大範圍枚舉比較不會累,也比較不會漏
- parallel exploitation:可以同時試多條路徑
- 成本:某些 ARTEMIS 變體約 18 美元 / 小時,而專業 pentester 約 60 美元 / 小時
但它也不是已經全面超車。論文很誠實地指出 agent 的缺口:
- false positive rate 較高
- GUI-based tasks 明顯吃虧
- production ambiguity 處理能力仍不如最強的人類
這裡最重要的訊息不是「AI 贏了」或「人類還是最強」,而是:offensive security 的競爭門檻,正在從單次 exploit 技巧,移向 orchestration、parallelism、triage 與持續運作能力。
為什麼這篇論文的意義不只在紅隊?
很多人看到這篇會先想到 offensive risk,這當然對;但它對防守方其實更重要。因為這篇論文等於把一件事講得很白:
如果一個設計得夠好的 agent,已經能在真實大型網路中接近甚至超過大多數專業人員,那 defender 不能再只用「目前 benchmark 還不高分」來安慰自己。
這會帶來幾個現實後果:
- 漏洞暴露窗口會縮短:因為攻擊方的枚舉與驗證速度可能變得更快
- 低成本規模化 probing 會更可行:橫向擴張不再全靠招更多人
- 防守監控要更重視「機器節奏」:systematic、平行、低休息成本的探測行為會更常見
- 安全評估方法必須升級:不能再只看 CTF / CVE benchmark,而要看 production-adjacent realism
換句話說,這篇 paper 真正重擊的不是某家模型公司,而是整個資安圈對「AI offensive capability 還只是玩具」的舒適幻覺。
這篇論文也提醒了一個常被忽略的點:scaffold 正在變成真正的能力載體
這篇論文另一個很值得記住的地方,是它再次證明:同一級別模型,放進不同 scaffold,表現差距可以非常大。
這意味著未來風險評估不能只問「哪個模型最強」,還得問:
- 它有沒有多代理分工?
- 能不能長時間跨 session 持續工作?
- 有沒有 task-specific prompt generation?
- 有沒有 triage / validation layer?
- 能不能把失敗探索快速收斂,而不是一直撞牆?
也就是說,agent scaffold 本身,已經是攻防能力的一級變數。這和我們最近看到的 protocol、memory、tool、skill supply chain 論文其實是同一條主線:真正危險的不是模型單點 IQ,而是整個 execution system 被怎麼組起來。
我的看法
我認為這篇論文最重要的,不是 ARTEMIS 拿了第二名,而是它把資安 AI 討論從「會不會做題」正式推進到「能不能在真實環境中穩定做工」。
而這也順手拆穿了一個很常見的誤會:很多人以為只要現有 benchmark 分數還不夠高,就代表 AI 在 offensive security 還不成氣候。但這篇結果剛好反過來說明,問題可能不是 AI 不夠強,而是我們原本拿來測它的 benchmark 還不夠接近真實世界。
當最強 agent 已經能在 live enterprise environment 裡勝過大多數專業參與者,接下來真正要補課的就不是再多做幾個漂亮 demo,而是:
- 更真實的 evaluation
- 更嚴格的 runtime oversight
- 更成熟的 safe-harbor 與 controlled testing governance
- 以及更務實地承認:AI agent 在 offensive security 的能力門檻,正在快速逼近「不能再當作未來式」的區間
總結
Comparing AI Agents to Cybersecurity Professionals in Real-World Penetration Testing 最值得讀的地方,在於它不是又證明一次 AI 會寫 payload,而是第一次比較完整地回答了這個更大的問題:當 AI agent 被放進真實企業網路,它和專業 pentester 的距離還有多遠?
論文給出的答案很清楚:
- 多數現成 agent scaffold 還不夠強
- 但設計得夠好的 agent system,已經能在真實環境中逼近甚至超過大多數人類參與者
- 勝負關鍵正在從單點模型能力,轉向 orchestration、sub-agents、triage、memory 與長程 workflow 設計
對資安圈來說,這篇 paper 的真正警訊是:AI offensive capability 的討論,已經不能再停留在 benchmark pass rate;它開始進入真實生產網路、真實弱點流程與真實成本結構。
本文由 AI 產生、整理與撰寫。
