CyberExplorer 論文閱讀分析：當 Offensive Agent 不再只是解題，而是真的得在陌生環境裡自己找洞

2026 年 4 月 10 日

論文基本資訊

論文標題：CyberExplorer: Benchmarking LLM Offensive Security Capabilities in a Real-World Attacking Simulation Environment
作者：Nanda Rani、Kimberly Milner、Minghao Shao、Meet Udeshi、Haoran Xi、Venkata Sai Charan Putrevu、Saksham Aggarwal、Sandeep K. Shukla、Prashanth Krishnamurthy、Farshad Khorrami、Muhammad Shafique、Ramesh Karri
年份：2026
來源：arXiv:2602.08023v2
論文連結：https://arxiv.org/abs/2602.08023
DOI：10.48550/arXiv.2602.08023
主題：Offensive Security、LLM Agent、Benchmark、Multi-Agent、Reconnaissance、Exploitation、CTF、Agent Evaluation

本文由 AI 產生、整理與撰寫。

如果前幾篇 sectools.tw 的主線，已經一路從 SOC triage、incident response、agent guardrails、system prompt、agent skills 走到「LLM agent 到底能不能在高風險資安工作裡穩定做事」，那這篇 CyberExplorer 剛好把鏡頭切到另一側：當我們真的去量 offensive agent 的能力時，還能不能繼續拿那種單題、單服務、拿到 flag 就算贏的 closed-world benchmark 當現實代理？

我覺得這篇 paper 值得寫，不是因為它又做了一個新的攻擊 benchmark，而是因為它抓到一個很少人願意正面面對的問題：真實世界的攻擊行動，本來就不是「已知哪裡有洞、只差你把 exploit 拼出來」這麼乾淨。 真正麻煩的地方通常在前面：你先得摸索 attack surface、判斷哪個服務值得打、辨識哪些線索是噪音、哪些互動只是 dead end，然後在不確定下持續修正假設。也就是說，offensive agent 的難點從來不只在 exploitation，而是在 exploration under uncertainty。

這篇論文真正想補的缺口：我們目前量到的，多半還只是「解題能力」，不是「找洞能力」

作者對既有 offensive security benchmark 的批評非常準。像 NYU CTF Bench、Cybench、CTFTiny 這類基準很有價值，因為它們讓我們能系統化比較模型、prompt、tool use 和 agent design；但它們大多有一個共同前提：任務邊界是先幫你畫好的。

也就是說，agent 通常面對的是一個單一 vulnerable service，目標明確、範圍清楚、成功條件也明確，常常就是把 flag 拿出來。這當然很適合測 exploitation competence，但它少了很多現實世界真正吃掉時間與判斷力的部分：

你不知道漏洞在哪裡
你不知道哪些服務可打、哪些只是噪音
你需要先 recon、再篩選、再決定優先順序
你會遇到大量 false leads 與 dead ends

所以這篇論文最核心的貢獻，不是再做一個更大的 CTF 題庫，而是把 offensive-agent evaluation 從 closed-world challenge solving 往 open-environment attack exploration 推進了一步。

CyberExplorer 的核心觀念：把評估對象從單題 exploit，改成開放環境裡的整體攻擊行為

作者提出的設定可以濃縮成一句話：

不要先告訴 agent 哪裡有洞，而是把它丟進一個有多個服務、帶噪音、部分可觀測的環境裡，看它能不能自己發現、判斷、協調、再下手。

CyberExplorer 的 benchmark 建在一台虛擬機上，裡面同時部署了 40 個有漏洞的 web services，來源來自多個真實 CTF 生態，包括 NYU CTF Bench、Google CTF、Hack The Box、Project Sekai CTF、HKCERT CTF、CodeGate 等。關鍵不是「40 題」這個數字本身，而是：它們不是一題一個乾淨隔離實例，而是一起共存在同一個可被掃描、可被探測、會製造噪音的環境裡。

這個設計把整個問題性質改掉了。Agent 不再只是回答「這題怎麼打」，而是要先處理更像真實攻擊工作流的幾件事：

Reconnaissance：先辨識環境裡有哪些 entry points
Target selection：哪些服務值得投入探索成本
Hypothesis revision：原本猜的攻擊路線錯了，要不要改
Exploitation：在正確目標上真正完成利用

也因此，CyberExplorer 想量的已經不是單純的 exploit correctness，而是比較完整的 agent trajectory quality：它怎麼探索、怎麼協調、怎麼浪費步驟、怎麼在錯誤路徑上止損。

這篇論文最值得看的地方：它把「開放環境」正式拉進 benchmark 設計中心

我認為 CyberExplorer 最有意思的不是 multi-agent 這幾個字，而是它先把環境做對。因為很多 offensive AI demo 看起來很厲害，實際上只是把難度藏在 benchmark 前處理裡：題目已分好、入口已知、範圍已縮小、成功條件也單一。這時候 agent 更像是在做 guided exploitation。

CyberExplorer 則刻意把這些保護欄拿掉一部分。論文明講，agent 事先不知道服務身分、不知道漏洞位置、也不知道 challenge 邊界，只能透過 probing、interaction feedback 和持續修正假設來往前走。這種設計有幾個非常關鍵的意義：

它開始測 target discrimination：不是看到東西就打，而是先分辨哪裡值得打
它開始測 false-positive handling：不是每條線索都通往 exploit
它開始測 prioritization：有限上下文與步數下，agent 要把資源放在哪
它開始測 exploratory discipline：agent 會不會亂跑、重複跑、或在死胡同裡耗盡上下文

說白一點，這篇論文在做的事，是把 offensive-agent 評估從「模型會不會打」往「模型像不像一個會找、會挑、會修正方向的攻擊流程體」推進。這比單純多幾個 exploit 題還重要得多。

CyberExplorer 不只是 benchmark，也是一個 reactive multi-agent workflow

論文另一個重點是它不是只有環境，還提出一套對應的多代理架構。從文中描述來看，這條 workflow 大致由幾個角色組成：

Reconnaissance agent：先找系統 entry points
Executor agent teams：對候選目標進行實際探索與利用
Supervisor-guided exploration：不是每條支線都放任亂跑，而是有上層引導
Critic-based trajectory correction：當探索路徑開始偏掉時，有機制回頭修正

這裡真正關鍵的字不是 multi-agent，而是 reactive。作者強調的不是先寫好完整計畫再照著跑，而是讓 agent 在開放環境裡邊探索、邊更新判斷、邊調整下一步。這非常合理，因為 open-environment 攻擊本來就不可能像 workflow automation 一樣事前定義乾淨劇本。

我會把這篇的方法理解成：它不是在證明多代理一定比單代理強，而是在證明一旦環境變得開放、多目標、帶噪音，純線性計畫就不夠了，agent 必須具備更像事件驅動探索的行為結構。

這篇 paper 最值得記的一句話：offensive benchmark 不能只看最終 flag

作者明確指出，CyberExplorer 想做的是 beyond flag recovery 的細粒度評估。這點我非常認同。因為只看最後有沒有拿到 flag，會把很多重要差異全部壓扁：

有些 agent 雖然最後成功，但過程極度低效
有些 agent 會反覆踩一樣的錯，成功其實只是碰巧
有些 agent 很會發現可疑點，卻不擅長穩定完成利用
有些 agent exploit 能力不差，但 target triage 完全失真

因此作者把評估延伸到：

interaction dynamics
coordination behavior
failure modes
vulnerability discovery signals

這其實很重要，因為它代表未來 offensive-agent 評估終於不必永遠困在那個過度粗糙的二元問題：有拿到旗子嗎？ 真正值得量的，應該是 agent 如何接近成功、卡在哪、為什麼卡、是否具備可遷移的探索能力。這些才比較接近真實風險。

這篇論文的價值，不只是幫紅隊做更強 agent，而是讓大家別再高估 agent 了

很多人看到 offensive benchmark 直覺會往「這是不是在幫攻擊自動化加速」去想。那個風險當然存在，但我認為 CyberExplorer 更現實的價值反而是：它幫我們更誠實地看見，現在很多看起來很會打的 agent，其實只是很會在被整理好的題目裡前進。

一旦把 environment 變得更像現實一點，很多原本藏起來的缺點就會浮出來：

探索成本失控
容易執著於錯誤假設
不知道何時放棄死路
多代理協作不一定增加效率，反而可能放大混亂

所以這篇 paper 一個很實際的意義，是它替 offensive-agent hype 加了一個比較硬的煞車：如果你沒有把未知目標、共享環境、噪音與 dead ends 一起算進來，那你量到的可能只是 exploit puzzle-solving，不是可遷移的 offensive capability。

我怎麼看這篇論文？它真正重要的不是「更像紅隊」，而是「更像現實系統」

我對這篇的整體評價是正面的。不是因為它已經把 offensive-agent evaluation 一次做完，而是因為它抓對了下一步：benchmark 的演進方向不應只是更多題、更高分、更大模型，而是更接近真實系統中的不確定性。

尤其在最近一串 agentic security paper 看下來之後，會發現一個共同趨勢：不管是藍隊、IR、guardrails、skills、還是 offensive agents，真正決定系統可靠性的常常都不是單一推理步驟，而是 長鏈行為在不確定環境中的收斂品質。CyberExplorer 把這件事放到 offensive side 來看，算是補上了很重要的一塊。

如果要用一句話總結這篇 paper，我會這樣寫：

CyberExplorer 想證明的不是 LLM agent 能不能打下一題，而是當環境不再幫你把題目圈出來時，agent 還剩下多少真正可用的攻擊能力。

這也是為什麼這篇很值得接在最近那串 agent benchmark / system security / runtime governance 論文之後。因為它提醒我們：無論紅隊還是藍隊，真正困難的都不是單點能力，而是 agent 進入真實環境後，能不能少一點幻覺、多一點紀律，少一點展示、多一點可驗證的行為品質。

CyberExplorer 論文閱讀分析：當 Offensive Agent 不再只是解題，而是真的得在陌生環境裡自己找洞

論文基本資訊

這篇論文真正想補的缺口：我們目前量到的，多半還只是「解題能力」，不是「找洞能力」

CyberExplorer 的核心觀念：把評估對象從單題 exploit，改成開放環境裡的整體攻擊行為

這篇論文最值得看的地方：它把「開放環境」正式拉進 benchmark 設計中心

CyberExplorer 不只是 benchmark，也是一個 reactive multi-agent workflow

這篇 paper 最值得記的一句話：offensive benchmark 不能只看最終 flag

這篇論文的價值，不只是幫紅隊做更強 agent，而是讓大家別再高估 agent 了

我怎麼看這篇論文？它真正重要的不是「更像紅隊」，而是「更像現實系統」

發佈留言取消回覆

You may also like

近期文章

廣告

文章分類

近期留言

論文基本資訊

這篇論文真正想補的缺口：我們目前量到的，多半還只是「解題能力」，不是「找洞能力」

CyberExplorer 的核心觀念：把評估對象從單題 exploit，改成開放環境裡的整體攻擊行為

這篇論文最值得看的地方：它把「開放環境」正式拉進 benchmark 設計中心

CyberExplorer 不只是 benchmark，也是一個 reactive multi-agent workflow

這篇 paper 最值得記的一句話：offensive benchmark 不能只看最終 flag

這篇論文的價值，不只是幫紅隊做更強 agent，而是讓大家別再高估 agent 了

我怎麼看這篇論文？它真正重要的不是「更像紅隊」，而是「更像現實系統」

發佈留言 取消回覆

You may also like

Agentic AI 與 Cybersecurity 論文閱讀分析：當資安系統開始像 Agent 一樣長時間思考、行動與協作

AIR 論文閱讀分析：真正成熟的 Agent Safety，不只要會阻止出事，還要會在出事後善後

近期文章

廣告

文章分類

近期留言

發佈留言取消回覆