多步驟 Cyber Attack 評測論文閱讀分析:真正該注意的,不是 AI 會不會單點解題,而是它已經開始能把整條攻擊鏈慢慢接起來

本文由 AI 產生、整理與撰寫。

論文基本資訊

  • 論文標題:Measuring AI Agents’ Progress on Multi-Step Cyber Attack Scenarios
  • 作者:Linus Folkerts、Will Payne、Simon Inman、Philippos Giavridis、Joe Skinner、Sam Deverett、James Aung、Ekin Zorer、Michael Schmatz、Mahmoud Ghanem、John Wilkinson、Alan Steer、Vy Hong、Jessica Wang
  • 年份:2026
  • 來源:arXiv:2603.11214
  • 論文連結:https://arxiv.org/abs/2603.11214
  • 主題:AI Agents、Cyber Range、Offensive Security Evaluation、ICS Security、Capability Scaling、Autonomous Exploitation

這篇 Measuring AI Agents’ Progress on Multi-Step Cyber Attack Scenarios 真正值得看的,不是它又在問一次「模型會不會駭」,而是它把問題換成更接近現場、也更讓人不舒服的版本:當攻擊不再是單一步驟的 CTF 小題,而是要在一個真的需要持續規劃、持續找路、持續切換工具與上下文的多階段環境裡往前推,前沿 AI agent 到底已經走到哪裡?

這篇 paper 的核心價值,在於它沒有只看某一題 exploit 成不成功,也不是只測單輪 prompt engineering,而是直接搭兩個 purpose-built cyber range:一個是 32 步的 corporate network attack,一個是 7 步的 industrial control system(ICS)attack。作者想看的不是模型會不會背 payload,而是它能不能把一串異質能力——像 reconnaissance、enumeration、lateral movement、credential use、service interaction、environment adaptation——真的接成一條會往前走的攻擊鏈。

這篇論文想回答什麼?

作者實際想回答的問題很清楚,而且跟很多安全 benchmark 不太一樣:

  • 前沿 AI agent 在真實感較高、需要多步推進的 cyber attack 任務上進步得有多快?
  • 這種能力提升主要來自模型世代進步,還是 simply 給更多 inference-time compute?
  • 企業 IT 環境與 ICS 環境的困難型態,對 agent 來說是不是本質上不同?

這個 framing 很重要。因為真正的風險,從來都不是「模型單次能不能答對 exploit 指令」,而是它如果開始能在一個長流程裡自己修正、自己試錯、自己銜接前後步驟,那威脅輪廓就完全不同了。

兩個 cyber range:不是泛泛攻擊,而是長鏈任務

作者設計了兩個評測場景:

  1. Corporate network attack range:共 32 個步驟
  2. Industrial control system attack range:共 7 個步驟

第一個場景更像典型企業網路滲透與內網推進,需要 agent 在長鏈條任務中維持上下文與策略延續;第二個場景則明顯偏向 OT / ICS,步驟數雖然較少,但要求的 domain knowledge、環境理解與操作風格不同,對 agent 來說不只是「比較短」,而是「完全不同類型的困難」。

這點很關鍵。很多安全能力討論都會不小心把 cyber 風險壓平,彷彿只要模型在某些 Linux / web 題目上分數高,就能外推到所有環境。這篇 paper 很直接地告訴你:不能這樣看。企業 IT 與 ICS 對 agent 的要求不是同一種難度曲線。

評測設計:看的是整條 attack chain 能走多遠

作者不是只看 final success,而是看 agent 完成了多少步驟。這種 metric 比單點成功率更有意義,因為多步攻擊的現實從來不是「全成」或「全敗」,而更像:

  • 卡在 reconnaissance
  • 能進內網但無法繼續 lateral movement
  • 找到 foothold 但在 privilege / credential / environment adaptation 上失敗
  • 會用單一工具,但不會把多個子任務銜接成長鏈行動

換句話說,這篇論文真正測的是 attack-chain continuity,而不是單點技能。

作者比較了什麼?兩條能力成長曲線

根據摘要,作者比較了 7 個模型,時間跨度從 2024 年 8 月到 2026 年 2 月,並測試不同 inference-time compute budgets。最後他們看到兩條非常值得注意的趨勢。

1. 能力會隨 inference-time compute 近似對數線性上升

第一個結論是:performance scales log-linearly with inference-time compute。摘要提到,當 token budget 從 10M 拉到 100M 時,能力提升可達 59%,而且作者特別點出:這不需要操作者具備很高的技術精細度。

這個訊號很重。它代表如果一個人或組織只是願意多砸 inference budget,不一定需要更高級的手工 exploit skill,也能把 agent 在長鏈攻擊任務上的表現往上推一截。很多人會把風險想成「要等到某個神級模型出現才危險」,但這篇 paper 提醒你:風險也可能來自更便宜、更無聊、但很有效的 scaling knob——多給它算久一點。

2. 每一代新模型,在固定 token budget 下都比前代更強

第二個結論是 model generation effect。作者指出,在 corporate range 上,如果固定在 10M tokens 的預算下,平均完成步驟數從 GPT-4o(2024/08)1.7 步,一路上升到 Opus 4.6(2026/02)9.8 步

這裡真正值得怕的,不只是「有進步」,而是它進步得很有方向性:不是偶爾某題特別好,而是在同樣預算下,整體 multi-step attack progression 持續上升。這比較像是一條 capability frontier 正在往前推,而不是幾個隨機 benchmark 波動。

最刺眼的數字:最佳單次跑到 32 步中的 22 步

摘要裡最醒目的數字,是 best single run completed 22 of 32 steps。作者還補了一個很實際的對照:這相當於大概 14 小時人類專家的多步攻擊流程中,已經完成了其中約 6 小時的工作量。

我覺得這個對照比單純百分比更有感。因為它把問題從抽象的 benchmark score,拉回到現實裡大家更容易理解的尺度:不是 AI 已經能獨立打完整場,而是它已經開始能吃掉原本要由 skilled operator 花好幾個小時親手完成的一大段流程。

這種能力即使還不足以完全 autonomous end-to-end compromise,也已經足夠改變攻擊面的 economics。對攻擊者來說,有時候只要把最耗時、最容易卡住的前半段自動化掉,整體門檻就會下降很多。

ICS 結果沒那麼高,但更值得注意

在 ICS range 上,結果相對保守:最先進模型平均只能完成 1.2–1.4 / 7 步,單次最佳為 3 步。表面看起來這像是「還很弱」,但我反而覺得要小心不要低估它。

原因是作者明講:recent models are the first to reliably complete steps。也就是說,先前很多模型在這類環境幾乎是碰不到門,現在則開始出現穩定可重現的進展。這代表 ICS 不再是完全沒有訊號的區域,而是已經出現從 0 到 1 的跨越。

對 ICS / OT 安全來說,這比一般 IT 環境更敏感,因為:

  • 環境通常更脆弱、更難做大規模安全實驗
  • 可見度與測試頻率往往較低
  • 真實世界的 incident tolerance 通常更差
  • 一旦 agent capability 開始出現穩定訊號,防守方需要更早介入,而不是等它變成熟

這篇論文真正刺中的,不是「AI 已經會不會駭」,而是能力曲線已經開始長出來

這篇 paper 我覺得最重要的地方,是它把討論重心從二元辯論拉開。很多人問 AI cyber risk 時,還停在:

  • 現在到底行不行?
  • 有沒有完全 autonomous?
  • 能不能一鍵入侵?

但這篇真正告訴你的,是另一件更有決策價值的事:即使它還沒有完整 end-to-end autonomy,能力曲線本身已經可以量到,而且正在往上。

這比單點 headline 更值得管理者與防守團隊關注,因為治理與防禦最怕的,就是把風險理解成一條開關:要嘛安全、要嘛危險。現實通常不是這樣。現實是某些任務先變得比較會、某些場景先出現穩定提升、某些成本旋鈕先讓能力上升,而組織卻還用「等它真的很強再說」的方式在看。

對防守方的實際啟示

如果把這篇 paper 放回 defender 視角,我覺得至少有四個直接啟示:

  1. 應該監控 capability trend,不是只做一次性安全結論。
    今天不夠強,不代表三個版本後還一樣。
  2. 要把 inference-time scaling 納入 threat model。
    風險不只來自更強模型,也來自更長、更貴、但更有效的 agent runs。
  3. IT 與 ICS 要分開看。
    不能因為 ICS 目前分數低,就把整體 cyber-agent 風險一概判成低。
  4. 更該防的是 attack-chain orchestration。
    很多安全控制還在假設攻擊者是逐步手工切換;若 agent 能幫忙維持長鏈流程,偵測與阻斷點也要跟著重畫。

我的看法

我會把這篇列為近期 AI × cyber risk 裡很值得補的一篇,不是因為它在煽動恐慌,而是因為它終於把「AI 的攻擊能力是否正在成長」這件事,放到一個比較像樣、比較接近真實連續任務的框架裡量。它沒有假裝模型已經全能,也沒有用幾個 spectacular demo 直接下結論;相反地,它做的事其實更危險也更有用:把 capability trend 量給你看。

如果要用一句話總結這篇,我會這樣講:

真正該警覺的,不一定是 AI 已經能把整場攻擊打完,而是它已經開始能把那段最花時間、最需要持續推進的多步流程越做越長。

對風險治理來說,這通常就夠了。

You may also like