Frontier LLM Offensive Cyber Benchmark 論文閱讀分析:真正把 agent 表現往上推的,常常不是 prompt,而是它手邊到底有沒有一個像樣的 Kali 工作台
這篇論文最值得看的,不是哪家模型又贏了幾題,而是它把 offensive cyber agent 的主因拆出來量:在同一個多代理框架與 200 題 NYU CTF Bench 下,Kali 工具環境比普通 Ubuntu 多出 9.5 個百分點 solve rate;反而很多看似聰明的 prompt engineering,在工具夠齊時只會把 agent 綁手綁腳。真正決定 agent 上限的,往往不是 prompt 花樣,而是 runtime substrate 有沒有先長對。
2026 年 4 月 21 日
