CyberExplorer 論文閱讀分析:當 Offensive Agent 不再只是解題,而是真的得在陌生環境裡自己找洞

論文基本資訊

  • 論文標題:CyberExplorer: Benchmarking LLM Offensive Security Capabilities in a Real-World Attacking Simulation Environment
  • 作者:Nanda Rani、Kimberly Milner、Minghao Shao、Meet Udeshi、Haoran Xi、Venkata Sai Charan Putrevu、Saksham Aggarwal、Sandeep K. Shukla、Prashanth Krishnamurthy、Farshad Khorrami、Muhammad Shafique、Ramesh Karri
  • 年份:2026
  • 來源:arXiv:2602.08023v2
  • 論文連結:https://arxiv.org/abs/2602.08023
  • DOI:10.48550/arXiv.2602.08023
  • 主題:Offensive Security、LLM Agent、Benchmark、Multi-Agent、Reconnaissance、Exploitation、CTF、Agent Evaluation

本文由 AI 產生、整理與撰寫。

如果前幾篇 sectools.tw 的主線,已經一路從 SOC triage、incident response、agent guardrails、system prompt、agent skills 走到「LLM agent 到底能不能在高風險資安工作裡穩定做事」,那這篇 CyberExplorer 剛好把鏡頭切到另一側:當我們真的去量 offensive agent 的能力時,還能不能繼續拿那種單題、單服務、拿到 flag 就算贏的 closed-world benchmark 當現實代理?

我覺得這篇 paper 值得寫,不是因為它又做了一個新的攻擊 benchmark,而是因為它抓到一個很少人願意正面面對的問題:真實世界的攻擊行動,本來就不是「已知哪裡有洞、只差你把 exploit 拼出來」這麼乾淨。 真正麻煩的地方通常在前面:你先得摸索 attack surface、判斷哪個服務值得打、辨識哪些線索是噪音、哪些互動只是 dead end,然後在不確定下持續修正假設。也就是說,offensive agent 的難點從來不只在 exploitation,而是在 exploration under uncertainty

這篇論文真正想補的缺口:我們目前量到的,多半還只是「解題能力」,不是「找洞能力」

作者對既有 offensive security benchmark 的批評非常準。像 NYU CTF Bench、Cybench、CTFTiny 這類基準很有價值,因為它們讓我們能系統化比較模型、prompt、tool use 和 agent design;但它們大多有一個共同前提:任務邊界是先幫你畫好的。

也就是說,agent 通常面對的是一個單一 vulnerable service,目標明確、範圍清楚、成功條件也明確,常常就是把 flag 拿出來。這當然很適合測 exploitation competence,但它少了很多現實世界真正吃掉時間與判斷力的部分:

  • 你不知道漏洞在哪裡
  • 你不知道哪些服務可打、哪些只是噪音
  • 你需要先 recon、再篩選、再決定優先順序
  • 你會遇到大量 false leads 與 dead ends

所以這篇論文最核心的貢獻,不是再做一個更大的 CTF 題庫,而是把 offensive-agent evaluation 從 closed-world challenge solvingopen-environment attack exploration 推進了一步。

CyberExplorer 的核心觀念:把評估對象從單題 exploit,改成開放環境裡的整體攻擊行為

作者提出的設定可以濃縮成一句話:

不要先告訴 agent 哪裡有洞,而是把它丟進一個有多個服務、帶噪音、部分可觀測的環境裡,看它能不能自己發現、判斷、協調、再下手。

CyberExplorer 的 benchmark 建在一台虛擬機上,裡面同時部署了 40 個有漏洞的 web services,來源來自多個真實 CTF 生態,包括 NYU CTF Bench、Google CTF、Hack The Box、Project Sekai CTF、HKCERT CTF、CodeGate 等。關鍵不是「40 題」這個數字本身,而是:它們不是一題一個乾淨隔離實例,而是一起共存在同一個可被掃描、可被探測、會製造噪音的環境裡。

這個設計把整個問題性質改掉了。Agent 不再只是回答「這題怎麼打」,而是要先處理更像真實攻擊工作流的幾件事:

  1. Reconnaissance:先辨識環境裡有哪些 entry points
  2. Target selection:哪些服務值得投入探索成本
  3. Hypothesis revision:原本猜的攻擊路線錯了,要不要改
  4. Exploitation:在正確目標上真正完成利用

也因此,CyberExplorer 想量的已經不是單純的 exploit correctness,而是比較完整的 agent trajectory quality:它怎麼探索、怎麼協調、怎麼浪費步驟、怎麼在錯誤路徑上止損。

這篇論文最值得看的地方:它把「開放環境」正式拉進 benchmark 設計中心

我認為 CyberExplorer 最有意思的不是 multi-agent 這幾個字,而是它先把環境做對。因為很多 offensive AI demo 看起來很厲害,實際上只是把難度藏在 benchmark 前處理裡:題目已分好、入口已知、範圍已縮小、成功條件也單一。這時候 agent 更像是在做 guided exploitation。

CyberExplorer 則刻意把這些保護欄拿掉一部分。論文明講,agent 事先不知道服務身分、不知道漏洞位置、也不知道 challenge 邊界,只能透過 probing、interaction feedback 和持續修正假設來往前走。這種設計有幾個非常關鍵的意義:

  • 它開始測 target discrimination:不是看到東西就打,而是先分辨哪裡值得打
  • 它開始測 false-positive handling:不是每條線索都通往 exploit
  • 它開始測 prioritization:有限上下文與步數下,agent 要把資源放在哪
  • 它開始測 exploratory discipline:agent 會不會亂跑、重複跑、或在死胡同裡耗盡上下文

說白一點,這篇論文在做的事,是把 offensive-agent 評估從「模型會不會打」往「模型像不像一個會找、會挑、會修正方向的攻擊流程體」推進。這比單純多幾個 exploit 題還重要得多。

CyberExplorer 不只是 benchmark,也是一個 reactive multi-agent workflow

論文另一個重點是它不是只有環境,還提出一套對應的多代理架構。從文中描述來看,這條 workflow 大致由幾個角色組成:

  • Reconnaissance agent:先找系統 entry points
  • Executor agent teams:對候選目標進行實際探索與利用
  • Supervisor-guided exploration:不是每條支線都放任亂跑,而是有上層引導
  • Critic-based trajectory correction:當探索路徑開始偏掉時,有機制回頭修正

這裡真正關鍵的字不是 multi-agent,而是 reactive。作者強調的不是先寫好完整計畫再照著跑,而是讓 agent 在開放環境裡邊探索、邊更新判斷、邊調整下一步。這非常合理,因為 open-environment 攻擊本來就不可能像 workflow automation 一樣事前定義乾淨劇本。

我會把這篇的方法理解成:它不是在證明多代理一定比單代理強,而是在證明一旦環境變得開放、多目標、帶噪音,純線性計畫就不夠了,agent 必須具備更像事件驅動探索的行為結構。

這篇 paper 最值得記的一句話:offensive benchmark 不能只看最終 flag

作者明確指出,CyberExplorer 想做的是 beyond flag recovery 的細粒度評估。這點我非常認同。因為只看最後有沒有拿到 flag,會把很多重要差異全部壓扁:

  • 有些 agent 雖然最後成功,但過程極度低效
  • 有些 agent 會反覆踩一樣的錯,成功其實只是碰巧
  • 有些 agent 很會發現可疑點,卻不擅長穩定完成利用
  • 有些 agent exploit 能力不差,但 target triage 完全失真

因此作者把評估延伸到:

  • interaction dynamics
  • coordination behavior
  • failure modes
  • vulnerability discovery signals

這其實很重要,因為它代表未來 offensive-agent 評估終於不必永遠困在那個過度粗糙的二元問題:有拿到旗子嗎? 真正值得量的,應該是 agent 如何接近成功、卡在哪、為什麼卡、是否具備可遷移的探索能力。這些才比較接近真實風險。

這篇論文的價值,不只是幫紅隊做更強 agent,而是讓大家別再高估 agent 了

很多人看到 offensive benchmark 直覺會往「這是不是在幫攻擊自動化加速」去想。那個風險當然存在,但我認為 CyberExplorer 更現實的價值反而是:它幫我們更誠實地看見,現在很多看起來很會打的 agent,其實只是很會在被整理好的題目裡前進。

一旦把 environment 變得更像現實一點,很多原本藏起來的缺點就會浮出來:

  • 探索成本失控
  • 容易執著於錯誤假設
  • 不知道何時放棄死路
  • 多代理協作不一定增加效率,反而可能放大混亂

所以這篇 paper 一個很實際的意義,是它替 offensive-agent hype 加了一個比較硬的煞車:如果你沒有把未知目標、共享環境、噪音與 dead ends 一起算進來,那你量到的可能只是 exploit puzzle-solving,不是可遷移的 offensive capability。

我怎麼看這篇論文?它真正重要的不是「更像紅隊」,而是「更像現實系統」

我對這篇的整體評價是正面的。不是因為它已經把 offensive-agent evaluation 一次做完,而是因為它抓對了下一步:benchmark 的演進方向不應只是更多題、更高分、更大模型,而是更接近真實系統中的不確定性。

尤其在最近一串 agentic security paper 看下來之後,會發現一個共同趨勢:不管是藍隊、IR、guardrails、skills、還是 offensive agents,真正決定系統可靠性的常常都不是單一推理步驟,而是 長鏈行為在不確定環境中的收斂品質。CyberExplorer 把這件事放到 offensive side 來看,算是補上了很重要的一塊。

如果要用一句話總結這篇 paper,我會這樣寫:

CyberExplorer 想證明的不是 LLM agent 能不能打下一題,而是當環境不再幫你把題目圈出來時,agent 還剩下多少真正可用的攻擊能力。

這也是為什麼這篇很值得接在最近那串 agent benchmark / system security / runtime governance 論文之後。因為它提醒我們:無論紅隊還是藍隊,真正困難的都不是單點能力,而是 agent 進入真實環境後,能不能少一點幻覺、多一點紀律,少一點展示、多一點可驗證的行為品質。

You may also like