ARTEMIS 論文閱讀分析：當 AI Agent 開始在真實企業網路裡打滲透測試，評測就不能再只看 CTF

2026 年 4 月 10 日

論文基本資訊

論文標題：Comparing AI Agents to Cybersecurity Professionals in Real-World Penetration Testing
作者：Justin W. Lin、Eliot Krzysztof Jones、Donovan Julian Jasper、Ethan Jun-shen Ho、Anna Wu、Arnold Tianyi Yang、Neil Perry、Andy Zou、Matt Fredrikson、J. Zico Kolter、Percy Liang、Dan Boneh、Daniel E. Ho
年份：2025（v2 於 2026 更新）
來源：arXiv:2512.09882
論文連結：https://arxiv.org/abs/2512.09882
主題：Offensive Security、AI Agent、Penetration Testing、Human-vs-Agent Evaluation、Multi-Agent、Real-World Benchmark

最近幾年談 AI x 資安，最常見的問題不是「模型會不會寫 exploit」，而是更尷尬也更重要的那一題：如果把 AI agent 放進真的企業網路裡，它到底能不能跟真人滲透測試員打？

這篇 Comparing AI Agents to Cybersecurity Professionals in Real-World Penetration Testing 值得讀，不是因為它又做了一個 CTF leaderboard，而是它直接把問題拉到真實場域。作者找來 10 位資安專業人士，同時讓 6 個既有 AI agent / scaffold 加上一個新設計的多代理框架 ARTEMIS，去打同一個大型大學真實網路環境：約 8,000 台主機、12 個子網，其中一部分還要透過 VPN 才能進入。

這個設定的重要性在於，它測的不是「你能不能在乾淨題目裡找 flag」，而是你能不能在充滿雜訊、權限限制、異質系統、真實營運風險與流程摩擦的環境裡，持續找到有價值、可驗證、可提交的弱點。

這篇論文想回答的核心問題

作者的出發點很直接：現有 benchmark 雖然多，但大多還是抽象化過頭。CTF 缺乏 production noise，CVE reproduction benchmark 又往往是針對已知目標與已知漏洞條件；可是真實世界的滲透測試不是這樣。

真實攻擊與真實 pentest 更像是：

先做大量枚舉與篩選
在模糊訊號中判斷哪裡值得深挖
把錯誤線索快速捨棄
把多個小 misconfiguration 串成可利用路徑
在不把 production 打掛的前提下驗證 impact

所以這篇論文真正要問的是：

當環境從 benchmark 變成真實企業網路後，AI agent 的 offensive security 能力到底站在什麼位置？它只是會 demo，還是真的開始接近專業人員？

研究設計為什麼夠硬？

這篇 paper 最強的地方，是它沒有偷簡化場景。作者直接在一個大型研究型大學的真實資產範圍內做評測，環境包含 Unix-based systems、IoT、少量 Windows 與各種 embedded systems。參與者每人都拿到學生命名等級的帳號、Kali VM、明確的 scope 與安全規則，並被要求投入至少 10 個工作小時。

更重要的是，作者沒有忽略 live penetration test 的風險。他們特別把幾件事講清楚：

availability 風險：大規模掃描本身就可能傷到 production service
integrity 風險：像 SQL injection 這類驗證若做太猛，可能直接破壞資料
confidentiality 風險：exploit 驗證可能碰觸敏感資料
agent 額外風險：AI agent 不穩定、容易脫軌，因此研究期間有人類研究員與校方 IT 雙重監看

這點很關鍵。因為它提醒我們：把 agent 放進真實環境的門檻，不只是能力夠不夠，而是治理、監控與 kill-switch 做得夠不夠。

評分方式：不是只算找到幾個洞

作者知道單純用「數量」評分很粗糙，所以他們設計了一個同時考慮 technical complexity 與 business impact 的總分框架。

總分概念上是：

S_total = Σ (technical complexity + weighted criticality)

其中 technical complexity 又拆成：

detection complexity：你要多懂環境、多會找，才能看出這是問題
exploit complexity：你是否真的把漏洞 impact 驗出來

若只是 verification-only、沒有真正 exploit，分數會被軟性扣減。這個設計很合理，因為它在鼓勵的是從發現走到驗證的完整能力，而不是只會丟一堆猜測性的 finding。

另外，critical / high / medium / low / informational 還有不同權重。也就是說，這篇論文不是在比誰比較會刷低風險雜項，而是在比誰更能挖出技術上更難、業務上更痛的問題。

ARTEMIS 是什麼？為什麼它能衝到第二名？

作者提出的新框架叫 ARTEMIS（Automated Red Teaming Engine with Multi-agent Intelligent Supervision）。核心不是單一 prompt loop，而是一個更接近 production offensive workflow 的多代理系統，主要有三個部件：

Supervisor：高層任務管理、工作拆解、追蹤進度
Arbitrary sub-agents：可動態生成、依任務配專長 prompt 的子代理
Triager：幫忙確認 submission 是否可重現、是否值得送出，降低 duplicate 與 false positive

論文特別強調幾個設計點：

有 task list 與 note-taking，不是做一步忘一步
有 smart summarization，能讓長時間作業跨 session 延續
子代理不是硬套同一套 prompt，而是由 prompt-generation module 動態生成 task-specific system prompt
能切 session、清 context、再接續跑，避免長工時下 context 爆炸

換句話說，ARTEMIS 的勝負點不是單步 exploit 特技，而是長程 offensive workflow orchestration：記得做過什麼、知道下一步該找誰、能平行化探索、還能在送件前先把垃圾 finding 篩掉。

主要結果：AI 已經不是玩具，但也還沒全面贏

論文最吸睛的結果是：ARTEMIS 在整體排行榜拿到第二名，找到 9 個有效漏洞，有效提交率約 82%，表現勝過 10 位人類參與者中的 9 位。

這個結果很重，因為它不是在沙盒題目裡拿 pass rate，而是在 live enterprise environment 裡打出來的。這表示：

不是所有 AI agent 都很強：既有 scaffold 像 Codex、CyAgent 整體仍落後多數真人
但 agent architecture 差異已經開始決定勝負：不是「模型會不會」，而是「系統怎麼把模型能力組起來」
最強 agent 已經逼近頂尖人類的技術層級：至少在某些類型任務上，已不是純展示品

作者也指出，AI agent 有幾個明顯優勢：

systematic enumeration：對大範圍枚舉比較不會累，也比較不會漏
parallel exploitation：可以同時試多條路徑
成本：某些 ARTEMIS 變體約 18 美元 / 小時，而專業 pentester 約 60 美元 / 小時

但它也不是已經全面超車。論文很誠實地指出 agent 的缺口：

false positive rate 較高
GUI-based tasks 明顯吃虧
production ambiguity 處理能力仍不如最強的人類

這裡最重要的訊息不是「AI 贏了」或「人類還是最強」，而是：offensive security 的競爭門檻，正在從單次 exploit 技巧，移向 orchestration、parallelism、triage 與持續運作能力。

為什麼這篇論文的意義不只在紅隊？

很多人看到這篇會先想到 offensive risk，這當然對；但它對防守方其實更重要。因為這篇論文等於把一件事講得很白：

如果一個設計得夠好的 agent，已經能在真實大型網路中接近甚至超過大多數專業人員，那 defender 不能再只用「目前 benchmark 還不高分」來安慰自己。

這會帶來幾個現實後果：

漏洞暴露窗口會縮短：因為攻擊方的枚舉與驗證速度可能變得更快
低成本規模化 probing 會更可行：橫向擴張不再全靠招更多人
防守監控要更重視「機器節奏」：systematic、平行、低休息成本的探測行為會更常見
安全評估方法必須升級：不能再只看 CTF / CVE benchmark，而要看 production-adjacent realism

換句話說，這篇 paper 真正重擊的不是某家模型公司，而是整個資安圈對「AI offensive capability 還只是玩具」的舒適幻覺。

這篇論文也提醒了一個常被忽略的點：scaffold 正在變成真正的能力載體

這篇論文另一個很值得記住的地方，是它再次證明：同一級別模型，放進不同 scaffold，表現差距可以非常大。

這意味著未來風險評估不能只問「哪個模型最強」，還得問：

它有沒有多代理分工？
能不能長時間跨 session 持續工作？
有沒有 task-specific prompt generation？
有沒有 triage / validation layer？
能不能把失敗探索快速收斂，而不是一直撞牆？

也就是說，agent scaffold 本身，已經是攻防能力的一級變數。這和我們最近看到的 protocol、memory、tool、skill supply chain 論文其實是同一條主線：真正危險的不是模型單點 IQ，而是整個 execution system 被怎麼組起來。

我的看法

我認為這篇論文最重要的，不是 ARTEMIS 拿了第二名，而是它把資安 AI 討論從「會不會做題」正式推進到「能不能在真實環境中穩定做工」。

而這也順手拆穿了一個很常見的誤會：很多人以為只要現有 benchmark 分數還不夠高，就代表 AI 在 offensive security 還不成氣候。但這篇結果剛好反過來說明，問題可能不是 AI 不夠強，而是我們原本拿來測它的 benchmark 還不夠接近真實世界。

當最強 agent 已經能在 live enterprise environment 裡勝過大多數專業參與者，接下來真正要補課的就不是再多做幾個漂亮 demo，而是：

更真實的 evaluation
更嚴格的 runtime oversight
更成熟的 safe-harbor 與 controlled testing governance
以及更務實地承認：AI agent 在 offensive security 的能力門檻，正在快速逼近「不能再當作未來式」的區間

總結

Comparing AI Agents to Cybersecurity Professionals in Real-World Penetration Testing 最值得讀的地方，在於它不是又證明一次 AI 會寫 payload，而是第一次比較完整地回答了這個更大的問題：當 AI agent 被放進真實企業網路，它和專業 pentester 的距離還有多遠？

論文給出的答案很清楚：

多數現成 agent scaffold 還不夠強
但設計得夠好的 agent system，已經能在真實環境中逼近甚至超過大多數人類參與者
勝負關鍵正在從單點模型能力，轉向 orchestration、sub-agents、triage、memory 與長程 workflow 設計

對資安圈來說，這篇 paper 的真正警訊是：AI offensive capability 的討論，已經不能再停留在 benchmark pass rate；它開始進入真實生產網路、真實弱點流程與真實成本結構。

本文由 AI 產生、整理與撰寫。

ARTEMIS 論文閱讀分析：當 AI Agent 開始在真實企業網路裡打滲透測試，評測就不能再只看 CTF

論文基本資訊

這篇論文想回答的核心問題

研究設計為什麼夠硬？

評分方式：不是只算找到幾個洞

ARTEMIS 是什麼？為什麼它能衝到第二名？

主要結果：AI 已經不是玩具，但也還沒全面贏

為什麼這篇論文的意義不只在紅隊？

這篇論文也提醒了一個常被忽略的點：scaffold 正在變成真正的能力載體

我的看法

總結

發佈留言取消回覆

You may also like

近期文章

廣告

文章分類

近期留言

論文基本資訊

這篇論文想回答的核心問題

研究設計為什麼夠硬？

評分方式：不是只算找到幾個洞

ARTEMIS 是什麼？為什麼它能衝到第二名？

主要結果：AI 已經不是玩具，但也還沒全面贏

為什麼這篇論文的意義不只在紅隊？

這篇論文也提醒了一個常被忽略的點：scaffold 正在變成真正的能力載體

我的看法

總結

發佈留言 取消回覆

You may also like

CVE-Bench 論文閱讀分析：當 AI Agent 不再只是解 CTF，而是開始碰真實世界 Web CVE

AgentAuditor 論文閱讀分析：當 AI Agent 開始自己做事，真正該補強的可能是那個負責判它風險的 Judge

近期文章

廣告

文章分類

近期留言

發佈留言取消回覆