Benchmark

2026

Offensive Security Agent 架構論文閱讀分析:很多系統真正缺的,不是再多幾個分身,而是先知道什麼時候單兵就夠

這篇論文真正有價值的地方,不是再證明 multi-agent 可以做 offensive security,而是把 agent 拓樸選型做成可比較的 benchmark:在 600 runs 裡,MAS-Indep 以 64.2% validated detection 拿下 coverage 端最佳表現,但 SAS 以 53 秒 median TTFV 與每個 validated finding 僅 0.058 美元成為效率錨點,說明多代理不是越複雜越好,真正該優化的是 observability、domain difficulty 與 coordination overhead 之間的折衝。

2026 年 4 月 22 日

Cyber Defense Benchmark 論文閱讀分析:很多 SOC AI 真正還不會的,不是回答安全問題,而是自己把惡意事件從海量 log 裡找出來

Cyber Defense Benchmark 這篇最重要的,不是又多一個 cyber benchmark,而是把 LLM agent 丟回真正像 SOC 的 open-ended threat hunting 任務:面對數萬到十幾萬筆 Windows logs,自己用 SQL 找出惡意事件時間點。結果五個 frontier models 全面失手,最佳模型平均也只找對 3.8% 惡意事件。

2026 年 4 月 22 日