ARTEMIS 論文閱讀分析:當 AI Agent 開始在真實企業網路裡打滲透測試,評測就不能再只看 CTF

論文基本資訊

  • 論文標題:Comparing AI Agents to Cybersecurity Professionals in Real-World Penetration Testing
  • 作者:Justin W. Lin、Eliot Krzysztof Jones、Donovan Julian Jasper、Ethan Jun-shen Ho、Anna Wu、Arnold Tianyi Yang、Neil Perry、Andy Zou、Matt Fredrikson、J. Zico Kolter、Percy Liang、Dan Boneh、Daniel E. Ho
  • 年份:2025(v2 於 2026 更新)
  • 來源:arXiv:2512.09882
  • 論文連結:https://arxiv.org/abs/2512.09882
  • 主題:Offensive Security、AI Agent、Penetration Testing、Human-vs-Agent Evaluation、Multi-Agent、Real-World Benchmark

最近幾年談 AI x 資安,最常見的問題不是「模型會不會寫 exploit」,而是更尷尬也更重要的那一題:如果把 AI agent 放進真的企業網路裡,它到底能不能跟真人滲透測試員打?

這篇 Comparing AI Agents to Cybersecurity Professionals in Real-World Penetration Testing 值得讀,不是因為它又做了一個 CTF leaderboard,而是它直接把問題拉到真實場域。作者找來 10 位資安專業人士,同時讓 6 個既有 AI agent / scaffold 加上一個新設計的多代理框架 ARTEMIS,去打同一個大型大學真實網路環境:約 8,000 台主機、12 個子網,其中一部分還要透過 VPN 才能進入。

這個設定的重要性在於,它測的不是「你能不能在乾淨題目裡找 flag」,而是你能不能在充滿雜訊、權限限制、異質系統、真實營運風險與流程摩擦的環境裡,持續找到有價值、可驗證、可提交的弱點

這篇論文想回答的核心問題

作者的出發點很直接:現有 benchmark 雖然多,但大多還是抽象化過頭。CTF 缺乏 production noise,CVE reproduction benchmark 又往往是針對已知目標與已知漏洞條件;可是真實世界的滲透測試不是這樣。

真實攻擊與真實 pentest 更像是:

  • 先做大量枚舉與篩選
  • 在模糊訊號中判斷哪裡值得深挖
  • 把錯誤線索快速捨棄
  • 把多個小 misconfiguration 串成可利用路徑
  • 在不把 production 打掛的前提下驗證 impact

所以這篇論文真正要問的是:

當環境從 benchmark 變成真實企業網路後,AI agent 的 offensive security 能力到底站在什麼位置?它只是會 demo,還是真的開始接近專業人員?

研究設計為什麼夠硬?

這篇 paper 最強的地方,是它沒有偷簡化場景。作者直接在一個大型研究型大學的真實資產範圍內做評測,環境包含 Unix-based systems、IoT、少量 Windows 與各種 embedded systems。參與者每人都拿到學生命名等級的帳號、Kali VM、明確的 scope 與安全規則,並被要求投入至少 10 個工作小時

更重要的是,作者沒有忽略 live penetration test 的風險。他們特別把幾件事講清楚:

  • availability 風險:大規模掃描本身就可能傷到 production service
  • integrity 風險:像 SQL injection 這類驗證若做太猛,可能直接破壞資料
  • confidentiality 風險:exploit 驗證可能碰觸敏感資料
  • agent 額外風險:AI agent 不穩定、容易脫軌,因此研究期間有人類研究員與校方 IT 雙重監看

這點很關鍵。因為它提醒我們:把 agent 放進真實環境的門檻,不只是能力夠不夠,而是治理、監控與 kill-switch 做得夠不夠。

評分方式:不是只算找到幾個洞

作者知道單純用「數量」評分很粗糙,所以他們設計了一個同時考慮 technical complexitybusiness impact 的總分框架。

總分概念上是:

S_total = Σ (technical complexity + weighted criticality)

其中 technical complexity 又拆成:

  • detection complexity:你要多懂環境、多會找,才能看出這是問題
  • exploit complexity:你是否真的把漏洞 impact 驗出來

若只是 verification-only、沒有真正 exploit,分數會被軟性扣減。這個設計很合理,因為它在鼓勵的是從發現走到驗證的完整能力,而不是只會丟一堆猜測性的 finding。

另外,critical / high / medium / low / informational 還有不同權重。也就是說,這篇論文不是在比誰比較會刷低風險雜項,而是在比誰更能挖出技術上更難、業務上更痛的問題

ARTEMIS 是什麼?為什麼它能衝到第二名?

作者提出的新框架叫 ARTEMIS(Automated Red Teaming Engine with Multi-agent Intelligent Supervision)。核心不是單一 prompt loop,而是一個更接近 production offensive workflow 的多代理系統,主要有三個部件:

  • Supervisor:高層任務管理、工作拆解、追蹤進度
  • Arbitrary sub-agents:可動態生成、依任務配專長 prompt 的子代理
  • Triager:幫忙確認 submission 是否可重現、是否值得送出,降低 duplicate 與 false positive

論文特別強調幾個設計點:

  • task listnote-taking,不是做一步忘一步
  • smart summarization,能讓長時間作業跨 session 延續
  • 子代理不是硬套同一套 prompt,而是由 prompt-generation module 動態生成 task-specific system prompt
  • 能切 session、清 context、再接續跑,避免長工時下 context 爆炸

換句話說,ARTEMIS 的勝負點不是單步 exploit 特技,而是長程 offensive workflow orchestration:記得做過什麼、知道下一步該找誰、能平行化探索、還能在送件前先把垃圾 finding 篩掉。

主要結果:AI 已經不是玩具,但也還沒全面贏

論文最吸睛的結果是:ARTEMIS 在整體排行榜拿到第二名,找到 9 個有效漏洞,有效提交率約 82%,表現勝過 10 位人類參與者中的 9 位

這個結果很重,因為它不是在沙盒題目裡拿 pass rate,而是在 live enterprise environment 裡打出來的。這表示:

  • 不是所有 AI agent 都很強:既有 scaffold 像 Codex、CyAgent 整體仍落後多數真人
  • 但 agent architecture 差異已經開始決定勝負:不是「模型會不會」,而是「系統怎麼把模型能力組起來」
  • 最強 agent 已經逼近頂尖人類的技術層級:至少在某些類型任務上,已不是純展示品

作者也指出,AI agent 有幾個明顯優勢:

  • systematic enumeration:對大範圍枚舉比較不會累,也比較不會漏
  • parallel exploitation:可以同時試多條路徑
  • 成本:某些 ARTEMIS 變體約 18 美元 / 小時,而專業 pentester 約 60 美元 / 小時

但它也不是已經全面超車。論文很誠實地指出 agent 的缺口:

  • false positive rate 較高
  • GUI-based tasks 明顯吃虧
  • production ambiguity 處理能力仍不如最強的人類

這裡最重要的訊息不是「AI 贏了」或「人類還是最強」,而是:offensive security 的競爭門檻,正在從單次 exploit 技巧,移向 orchestration、parallelism、triage 與持續運作能力。

為什麼這篇論文的意義不只在紅隊?

很多人看到這篇會先想到 offensive risk,這當然對;但它對防守方其實更重要。因為這篇論文等於把一件事講得很白:

如果一個設計得夠好的 agent,已經能在真實大型網路中接近甚至超過大多數專業人員,那 defender 不能再只用「目前 benchmark 還不高分」來安慰自己。

這會帶來幾個現實後果:

  • 漏洞暴露窗口會縮短:因為攻擊方的枚舉與驗證速度可能變得更快
  • 低成本規模化 probing 會更可行:橫向擴張不再全靠招更多人
  • 防守監控要更重視「機器節奏」:systematic、平行、低休息成本的探測行為會更常見
  • 安全評估方法必須升級:不能再只看 CTF / CVE benchmark,而要看 production-adjacent realism

換句話說,這篇 paper 真正重擊的不是某家模型公司,而是整個資安圈對「AI offensive capability 還只是玩具」的舒適幻覺。

這篇論文也提醒了一個常被忽略的點:scaffold 正在變成真正的能力載體

這篇論文另一個很值得記住的地方,是它再次證明:同一級別模型,放進不同 scaffold,表現差距可以非常大。

這意味著未來風險評估不能只問「哪個模型最強」,還得問:

  • 它有沒有多代理分工?
  • 能不能長時間跨 session 持續工作?
  • 有沒有 task-specific prompt generation?
  • 有沒有 triage / validation layer?
  • 能不能把失敗探索快速收斂,而不是一直撞牆?

也就是說,agent scaffold 本身,已經是攻防能力的一級變數。這和我們最近看到的 protocol、memory、tool、skill supply chain 論文其實是同一條主線:真正危險的不是模型單點 IQ,而是整個 execution system 被怎麼組起來。

我的看法

我認為這篇論文最重要的,不是 ARTEMIS 拿了第二名,而是它把資安 AI 討論從「會不會做題」正式推進到「能不能在真實環境中穩定做工」。

而這也順手拆穿了一個很常見的誤會:很多人以為只要現有 benchmark 分數還不夠高,就代表 AI 在 offensive security 還不成氣候。但這篇結果剛好反過來說明,問題可能不是 AI 不夠強,而是我們原本拿來測它的 benchmark 還不夠接近真實世界。

當最強 agent 已經能在 live enterprise environment 裡勝過大多數專業參與者,接下來真正要補課的就不是再多做幾個漂亮 demo,而是:

  • 更真實的 evaluation
  • 更嚴格的 runtime oversight
  • 更成熟的 safe-harbor 與 controlled testing governance
  • 以及更務實地承認:AI agent 在 offensive security 的能力門檻,正在快速逼近「不能再當作未來式」的區間

總結

Comparing AI Agents to Cybersecurity Professionals in Real-World Penetration Testing 最值得讀的地方,在於它不是又證明一次 AI 會寫 payload,而是第一次比較完整地回答了這個更大的問題:當 AI agent 被放進真實企業網路,它和專業 pentester 的距離還有多遠?

論文給出的答案很清楚:

  • 多數現成 agent scaffold 還不夠強
  • 但設計得夠好的 agent system,已經能在真實環境中逼近甚至超過大多數人類參與者
  • 勝負關鍵正在從單點模型能力,轉向 orchestration、sub-agents、triage、memory 與長程 workflow 設計

對資安圈來說,這篇 paper 的真正警訊是:AI offensive capability 的討論,已經不能再停留在 benchmark pass rate;它開始進入真實生產網路、真實弱點流程與真實成本結構。


本文由 AI 產生、整理與撰寫。

You may also like