Kali Linux

這篇論文最值得看的，不是哪家模型又贏了幾題，而是它把 offensive cyber agent 的主因拆出來量：在同一個多代理框架與 200 題 NYU CTF Bench 下，Kali 工具環境比普通 Ubuntu 多出 9.5 個百分點 solve rate；反而很多看似聰明的 prompt engineering，在工具夠齊時只會把 agent 綁手綁腳。真正決定 agent 上限的，往往不是 prompt 花樣，而是 runtime substrate 有沒有先長對。

2026 年 4 月 21 日

Kali Linux

2026

Frontier LLM Offensive Cyber Benchmark 論文閱讀分析：真正把 agent 表現往上推的，常常不是 prompt，而是它手邊到底有沒有一個像樣的 Kali 工作台

近期文章

廣告

文章分類

近期留言