SOC

2026

Cyber Defense Benchmark 論文閱讀分析:很多 SOC AI 真正還不會的,不是回答安全問題,而是自己把惡意事件從海量 log 裡找出來

Cyber Defense Benchmark 這篇最重要的,不是又多一個 cyber benchmark,而是把 LLM agent 丟回真正像 SOC 的 open-ended threat hunting 任務:面對數萬到十幾萬筆 Windows logs,自己用 SQL 找出惡意事件時間點。結果五個 frontier models 全面失手,最佳模型平均也只找對 3.8% 惡意事件。

2026 年 4 月 22 日

Retrieval-Augmented LLMs for Security Incident Analysis 論文閱讀分析:真正讓日誌分析變得可用的,往往不是模型更會答,而是先把證據縮到它看得完

這篇論文把 security incident analysis 拆成比較像真實 analyst workflow 的三段:先用和 MITRE ATT&CK 綁定的 query library 篩出候選證據,再用 RAG 補齊關鍵上下文,最後才讓 LLM 回答 forensic 問題並重建 attack sequence。重點不是證明模型能看懂 log,而是證明沒有 evidence filtering 與 grounded retrieval,再會講的模型也會在日誌海裡漏掉惡意基礎設施與攻擊步驟。

2026 年 4 月 21 日