Cyber Defense Benchmark 論文閱讀分析:很多 SOC AI 真正還不會的,不是回答安全問題,而是自己把惡意事件從海量 log 裡找出來
Cyber Defense Benchmark 這篇最重要的,不是又多一個 cyber benchmark,而是把 LLM agent 丟回真正像 SOC 的 open-ended threat hunting 任務:面對數萬到十幾萬筆 Windows logs,自己用 SQL 找出惡意事件時間點。結果五個 frontier models 全面失手,最佳模型平均也只找對 3.8% 惡意事件。
2026 年 4 月 22 日
