多步驟 Cyber Attack 評測論文閱讀分析：真正該注意的，不是 AI 會不會單點解題，而是它已經開始能把整條攻擊鏈慢慢接起來

2026 年 4 月 22 日

本文由 AI 產生、整理與撰寫。

論文基本資訊

論文標題：Measuring AI Agents’ Progress on Multi-Step Cyber Attack Scenarios
作者：Linus Folkerts、Will Payne、Simon Inman、Philippos Giavridis、Joe Skinner、Sam Deverett、James Aung、Ekin Zorer、Michael Schmatz、Mahmoud Ghanem、John Wilkinson、Alan Steer、Vy Hong、Jessica Wang
年份：2026
來源：arXiv:2603.11214
論文連結：https://arxiv.org/abs/2603.11214
主題：AI Agents、Cyber Range、Offensive Security Evaluation、ICS Security、Capability Scaling、Autonomous Exploitation

這篇 Measuring AI Agents’ Progress on Multi-Step Cyber Attack Scenarios 真正值得看的，不是它又在問一次「模型會不會駭」，而是它把問題換成更接近現場、也更讓人不舒服的版本：當攻擊不再是單一步驟的 CTF 小題，而是要在一個真的需要持續規劃、持續找路、持續切換工具與上下文的多階段環境裡往前推，前沿 AI agent 到底已經走到哪裡？

這篇 paper 的核心價值，在於它沒有只看某一題 exploit 成不成功，也不是只測單輪 prompt engineering，而是直接搭兩個 purpose-built cyber range：一個是 32 步的 corporate network attack，一個是 7 步的 industrial control system（ICS）attack。作者想看的不是模型會不會背 payload，而是它能不能把一串異質能力——像 reconnaissance、enumeration、lateral movement、credential use、service interaction、environment adaptation——真的接成一條會往前走的攻擊鏈。

這篇論文想回答什麼？

作者實際想回答的問題很清楚，而且跟很多安全 benchmark 不太一樣：

前沿 AI agent 在真實感較高、需要多步推進的 cyber attack 任務上進步得有多快？
這種能力提升主要來自模型世代進步，還是 simply 給更多 inference-time compute？
企業 IT 環境與 ICS 環境的困難型態，對 agent 來說是不是本質上不同？

這個 framing 很重要。因為真正的風險，從來都不是「模型單次能不能答對 exploit 指令」，而是它如果開始能在一個長流程裡自己修正、自己試錯、自己銜接前後步驟，那威脅輪廓就完全不同了。

兩個 cyber range：不是泛泛攻擊，而是長鏈任務

作者設計了兩個評測場景：

Corporate network attack range：共 32 個步驟
Industrial control system attack range：共 7 個步驟

第一個場景更像典型企業網路滲透與內網推進，需要 agent 在長鏈條任務中維持上下文與策略延續；第二個場景則明顯偏向 OT / ICS，步驟數雖然較少，但要求的 domain knowledge、環境理解與操作風格不同，對 agent 來說不只是「比較短」，而是「完全不同類型的困難」。

這點很關鍵。很多安全能力討論都會不小心把 cyber 風險壓平，彷彿只要模型在某些 Linux / web 題目上分數高，就能外推到所有環境。這篇 paper 很直接地告訴你：不能這樣看。企業 IT 與 ICS 對 agent 的要求不是同一種難度曲線。

評測設計：看的是整條 attack chain 能走多遠

作者不是只看 final success，而是看 agent 完成了多少步驟。這種 metric 比單點成功率更有意義，因為多步攻擊的現實從來不是「全成」或「全敗」，而更像：

卡在 reconnaissance
能進內網但無法繼續 lateral movement
找到 foothold 但在 privilege / credential / environment adaptation 上失敗
會用單一工具，但不會把多個子任務銜接成長鏈行動

換句話說，這篇論文真正測的是 attack-chain continuity，而不是單點技能。

作者比較了什麼？兩條能力成長曲線

根據摘要，作者比較了 7 個模型，時間跨度從 2024 年 8 月到 2026 年 2 月，並測試不同 inference-time compute budgets。最後他們看到兩條非常值得注意的趨勢。

1. 能力會隨 inference-time compute 近似對數線性上升

第一個結論是：performance scales log-linearly with inference-time compute。摘要提到，當 token budget 從 10M 拉到 100M 時，能力提升可達 59%，而且作者特別點出：這不需要操作者具備很高的技術精細度。

這個訊號很重。它代表如果一個人或組織只是願意多砸 inference budget，不一定需要更高級的手工 exploit skill，也能把 agent 在長鏈攻擊任務上的表現往上推一截。很多人會把風險想成「要等到某個神級模型出現才危險」，但這篇 paper 提醒你：風險也可能來自更便宜、更無聊、但很有效的 scaling knob——多給它算久一點。

2. 每一代新模型，在固定 token budget 下都比前代更強

第二個結論是 model generation effect。作者指出，在 corporate range 上，如果固定在 10M tokens 的預算下，平均完成步驟數從 GPT-4o（2024/08）的 1.7 步，一路上升到 Opus 4.6（2026/02）的 9.8 步。

這裡真正值得怕的，不只是「有進步」，而是它進步得很有方向性：不是偶爾某題特別好，而是在同樣預算下，整體 multi-step attack progression 持續上升。這比較像是一條 capability frontier 正在往前推，而不是幾個隨機 benchmark 波動。

最刺眼的數字：最佳單次跑到 32 步中的 22 步

摘要裡最醒目的數字，是 best single run completed 22 of 32 steps。作者還補了一個很實際的對照：這相當於大概 14 小時人類專家的多步攻擊流程中，已經完成了其中約 6 小時的工作量。

我覺得這個對照比單純百分比更有感。因為它把問題從抽象的 benchmark score，拉回到現實裡大家更容易理解的尺度：不是 AI 已經能獨立打完整場，而是它已經開始能吃掉原本要由 skilled operator 花好幾個小時親手完成的一大段流程。

這種能力即使還不足以完全 autonomous end-to-end compromise，也已經足夠改變攻擊面的 economics。對攻擊者來說，有時候只要把最耗時、最容易卡住的前半段自動化掉，整體門檻就會下降很多。

ICS 結果沒那麼高，但更值得注意

在 ICS range 上，結果相對保守：最先進模型平均只能完成 1.2–1.4 / 7 步，單次最佳為 3 步。表面看起來這像是「還很弱」，但我反而覺得要小心不要低估它。

原因是作者明講：recent models are the first to reliably complete steps。也就是說，先前很多模型在這類環境幾乎是碰不到門，現在則開始出現穩定可重現的進展。這代表 ICS 不再是完全沒有訊號的區域，而是已經出現從 0 到 1 的跨越。

對 ICS / OT 安全來說，這比一般 IT 環境更敏感，因為：

環境通常更脆弱、更難做大規模安全實驗
可見度與測試頻率往往較低
真實世界的 incident tolerance 通常更差
一旦 agent capability 開始出現穩定訊號，防守方需要更早介入，而不是等它變成熟

這篇論文真正刺中的，不是「AI 已經會不會駭」，而是能力曲線已經開始長出來

這篇 paper 我覺得最重要的地方，是它把討論重心從二元辯論拉開。很多人問 AI cyber risk 時，還停在：

現在到底行不行？
有沒有完全 autonomous？
能不能一鍵入侵？

但這篇真正告訴你的，是另一件更有決策價值的事：即使它還沒有完整 end-to-end autonomy，能力曲線本身已經可以量到，而且正在往上。

這比單點 headline 更值得管理者與防守團隊關注，因為治理與防禦最怕的，就是把風險理解成一條開關：要嘛安全、要嘛危險。現實通常不是這樣。現實是某些任務先變得比較會、某些場景先出現穩定提升、某些成本旋鈕先讓能力上升，而組織卻還用「等它真的很強再說」的方式在看。

對防守方的實際啟示

如果把這篇 paper 放回 defender 視角，我覺得至少有四個直接啟示：

應該監控 capability trend，不是只做一次性安全結論。
今天不夠強，不代表三個版本後還一樣。
要把 inference-time scaling 納入 threat model。
風險不只來自更強模型，也來自更長、更貴、但更有效的 agent runs。
IT 與 ICS 要分開看。
不能因為 ICS 目前分數低，就把整體 cyber-agent 風險一概判成低。
更該防的是 attack-chain orchestration。
很多安全控制還在假設攻擊者是逐步手工切換；若 agent 能幫忙維持長鏈流程，偵測與阻斷點也要跟著重畫。

我的看法

我會把這篇列為近期 AI × cyber risk 裡很值得補的一篇，不是因為它在煽動恐慌，而是因為它終於把「AI 的攻擊能力是否正在成長」這件事，放到一個比較像樣、比較接近真實連續任務的框架裡量。它沒有假裝模型已經全能，也沒有用幾個 spectacular demo 直接下結論；相反地，它做的事其實更危險也更有用：把 capability trend 量給你看。

如果要用一句話總結這篇，我會這樣講：

真正該警覺的，不一定是 AI 已經能把整場攻擊打完，而是它已經開始能把那段最花時間、最需要持續推進的多步流程越做越長。

對風險治理來說，這通常就夠了。

多步驟 Cyber Attack 評測論文閱讀分析：真正該注意的，不是 AI 會不會單點解題，而是它已經開始能把整條攻擊鏈慢慢接起來

論文基本資訊

這篇論文想回答什麼？

兩個 cyber range：不是泛泛攻擊，而是長鏈任務

評測設計：看的是整條 attack chain 能走多遠

作者比較了什麼？兩條能力成長曲線

1. 能力會隨 inference-time compute 近似對數線性上升

2. 每一代新模型，在固定 token budget 下都比前代更強

最刺眼的數字：最佳單次跑到 32 步中的 22 步

ICS 結果沒那麼高，但更值得注意

這篇論文真正刺中的，不是「AI 已經會不會駭」，而是能力曲線已經開始長出來

對防守方的實際啟示

我的看法

發佈留言取消回覆

You may also like

近期文章

廣告

文章分類

近期留言

論文基本資訊

這篇論文想回答什麼？

兩個 cyber range：不是泛泛攻擊，而是長鏈任務

評測設計：看的是整條 attack chain 能走多遠

作者比較了什麼？兩條能力成長曲線

1. 能力會隨 inference-time compute 近似對數線性上升

2. 每一代新模型，在固定 token budget 下都比前代更強

最刺眼的數字：最佳單次跑到 32 步中的 22 步

ICS 結果沒那麼高，但更值得注意

這篇論文真正刺中的，不是「AI 已經會不會駭」，而是能力曲線已經開始長出來

對防守方的實際啟示

我的看法

發佈留言 取消回覆

You may also like

In-Context Autonomous Network Incident Response 論文閱讀分析：真正有價值的 IR Agent，不是最會回答的那個，而是最會一邊觀察、一邊修正、一邊規劃的那個

LRCTI 論文閱讀分析：用多步驟檢索與推理驗證 CTI 可信度

近期文章

廣告

文章分類

近期留言

發佈留言取消回覆