Cyber Defense Benchmark 論文閱讀分析:很多 SOC AI 真正還不會的,不是回答安全問題,而是自己把惡意事件從海量 log 裡找出來
本文由 AI 產生、整理與撰寫。
論文基本資訊
- 論文標題:Cyber Defense Benchmark: Agentic Threat Hunting Evaluation for LLMs in SecOps
- 作者:Ambuj Kumar
- 年份:2026
- 來源:arXiv:2604.19533
- 論文連結:https://arxiv.org/abs/2604.19533
- DOI:10.48550/arXiv.2604.19533
- 主題:Threat Hunting、SecOps、SOC、LLM Agents、Windows Event Logs、Benchmark
這篇最值得看的,不是它又做了一個新 benchmark,而是它把題目拉回 SOC 現場最不浪漫、也最難作弊的那件事:面對一大坨原始 Windows event logs,沒有提示、沒有選擇題、沒有已整理好的 IOC,模型到底能不能自己把惡意事件的時間點挖出來?
作者的答案很直接,而且有點殘酷:現在不行,差得還很遠。
如果只用一句話講完這篇的核心,那就是:
很多 LLM 在安全 benchmark 上看起來很能打,但一旦真的把它丟進 evidence-driven、open-ended 的 threat hunting 流程裡,它們連最基本的「把壞事件找全」都做不到。
這篇論文在解什麼問題?
目前很多 cyber + LLM 評測,常見題型還是:
- 給你整理過的案例,問「這是哪種 ATT&CK technique?」
- 給你一段 log / 程式 / IOC,問「這看起來像什麼攻擊?」
- 給你明確問題,要求模型回答或摘要
這些題目不是沒價值,但它們有一個共同問題:上下文通常已經被人類整理過,問題也已經被人類定義好了。 真實 SOC 的 threat hunting 則反過來:分析師往往先拿到的是一個巨大的資料庫,必須自己想查法、自己縮小範圍、自己建立假設,再把惡意事件從海量正常事件中撈出來。
作者因此想測的不是「模型懂不懂安全名詞」,而是更實戰的能力:
當你只給 LLM agent 一個含有數萬到十幾萬筆 Windows logs 的 SQLite 資料庫,它能不能像一個 threat hunter 一樣,透過反覆查詢與驗證,把真正的惡意事件時間點抓出來?
Benchmark 怎麼做?重點不是問答,而是查案
Cyber Defense Benchmark 的設計我覺得很對味,因為它刻意避開那種容易被 prompt engineering 灌水的題型。
論文把 OTRF Security-Datasets 裡的 106 個真實 attack procedures 包裝成 benchmark episode,涵蓋:
- 86 個 MITRE ATT&CK sub-techniques
- 12 個 tactics
- Windows 事件記錄場景
每個 episode 都提供一個 in-memory SQLite database,裡面有大約 75,000 到 135,000 筆 log records。更麻煩的是,這些資料不是原封不動丟進去,而是經過 deterministic campaign simulator 做:
- 時間平移(time-shifting)
- 實體混淆(entity obfuscation)
這意味著 agent 不能只靠背資料集或記熟固定 pattern,而得真的查、真的比對、真的推理。
任務形式也很清楚:agent 要不斷送出 SQL queries,逐步定位可疑事件,最後把它認定為惡意的精確 timestamps 明確 flag 出來。評分則用類 CTF 的方式,拿 agent 的 flags 去對 Sigma-rule-derived ground truth。
這個 framing 很重要,因為它測的不是「會不會答題」,而是:
- 會不會自己形成 hunting hypothesis
- 會不會把查詢空間逐步收斂
- 會不會在噪音中找證據
- 會不會把 evidence 轉成可以交付的 detection 結果
結果有多慘?比很多人以為的還慘
作者拿這個 benchmark 去測五個 frontier models:Claude Opus 4.6、GPT-5、Gemini 3.1 Pro、Kimi K2.5、Gemini 3 Flash,在 26 個 campaigns 上測了可覆蓋的 105 / 106 procedures。
headline 幾乎一眼就夠了:
- 表現最好的 Claude Opus 4.6,平均也只找對 3.8% 的惡意事件 flags
- 沒有任何一次 run 能把某個 campaign 裡所有惡意 flags 全抓出來
- 作者定義的最低及格線是:每個 ATT&CK tactic 至少 50% recall
- 結果最好的模型也只在 13 個 tactic 中的 5 個 過線,其餘模型則是 0 個
這不是「還差一點點」。這是很典型的:模型看起來懂很多安全語彙,但一進到沒有提示、沒有答案框、需要靠證據自己收斂的環境,能力直接斷層。
這篇最重要的訊息:open-ended hunt 和 benchmark 問答根本不是同一件事
我覺得這篇最有價值的地方,是它讓很多對 SecOps AI 的樂觀敘事突然踩了煞車。
近一年很常看到這種說法:
- 模型在資安測驗表現很好
- 模型能回答 ATT&CK、CVE、IOC、malware analysis 問題
- 模型能產生 Sigma / YARA / triage 摘要
這些能力當然有用,但這篇告訴你:把「懂得回答安全問題」誤認成「有能力獨立做 threat hunting」,中間其實隔著一道非常大的 operational gap。
原因很簡單。Threat hunting 不是單輪 QA,而是一個連續過程:
- 先從混亂資料中建立可疑假設
- 決定下一步該查哪個欄位、哪個時間窗、哪個主機或帳號
- 根據前一次查詢結果修正策略
- 在高噪音中保留真正有鑑別力的證據
- 最後把推論落成精確、可驗證的 malicious event flags
這整條鏈,對 agent 的要求不是知識量而已,而是搜尋策略、狀態管理、證據收斂、以及持續不走偏的能力。而這正是很多 LLM 最脆弱的地方。
為什麼這個 benchmark 比很多 cyber benchmark 更接近現場?
因為它刻意保留了真實分析工作裡最討厭、卻最關鍵的幾個元素:
- 資料量大:不是幾十行範例,而是數萬到十幾萬筆 logs
- 提示少:沒有把問題切成好回答的小題目
- 工具導向:要靠 SQL 查詢逐步逼近,不是直接嘴答案
- 重召回:不是抓到一兩個亮點就算贏,而是要盡量找全
- 攻擊程序真實:基於 OTRF Security-Datasets,不是純合成玩具世界
特別是作者把「通過門檻」定義成 每個 tactic 都至少 50% recall,這很合理。因為 SOC 不是在比誰答得漂亮,而是在比你漏掉多少真事件。如果某幾類 tactics 幾乎抓不到,那就不是部署門檻還差一點,而是根本還不能放心交班。
這篇對 CTI / SecOps 的啟示是什麼?
我會把它的啟示分成四點。
1. 現在的 LLM 更像輔助分析員,不像 autonomous hunter
這篇結果很清楚:至少在 open-ended log hunting 這種任務上,LLM agent 還遠不到能獨立值班的程度。它比較適合做:
- 協助產生查詢初稿
- 幫忙解釋 ATT&CK / artifact 關聯
- 整理發現與撰寫報告
- 從人類已經縮小過的範圍內做二次分析
但若要直接讓它在沒有監督的情況下接手 threat hunting,這篇的數據基本上是否決票。
2. 以後評測 SecOps AI,不能只看答題型 benchmark
如果一個模型在安全知識題、分類題、摘要題拿高分,很容易讓人誤以為它也能處理實務 hunting。這篇就是提醒:evaluation design 決定你到底在量知識展示,還是在量真實作業能力。
對買產品的人來說,這也很重要。看到 vendor 說自己在某某 cyber benchmark 幾分幾分,下一句該問的是:
它在 open-ended evidence search、低提示、高噪音、重召回的場景下還剩多少能力?
3. 真正卡住 agent 的,不只是安全知識,而是 search discipline
很多人會以為 threat hunting 做不好,是因為模型不懂 ATT&CK、不懂 malware、不懂 event schema。但這篇比較像在說:知道名詞不等於會查案。
Agent 真正難的是:
- 何時該 broad scan、何時該 narrow down
- 哪些欄位值得先查
- 查不到東西時怎麼修正假設
- 怎麼避免在大量正常事件裡迷路
這種能力比較接近「有紀律的 investigation loop」,不是單純的問答或文本生成。
4. SecOps 的 AI 成熟路線,可能要先走 human-in-the-loop 與 workflow-constrained automation
既然完全開放式 hunting 還很不行,那比較務實的方向可能不是硬追求 full autonomy,而是先把模型放進比較窄、邊界比較清楚的工作流,例如:
- 從告警出發做 evidence enrichment
- 由人類指定 hunting hypothesis 後讓 agent 執行部分查詢
- 把已知 TTP 轉成可執行查詢模板
- 在 bounded scope 內做 triage 與報告生成
也就是說,先讓 AI 在有欄杆的調查流程裡穩定發揮,再談完全自主 hunting,可能比較接近現實。
這篇論文的限制
- 作者摘要中沒有展開每個模型失敗模式的細緻分類;如果未來有更完整 trace 分析,會更有助於理解 agent 究竟卡在哪一段。
- 場景聚焦在 Windows event logs,對雲端、EDR、網路流量與 mixed telemetry 的外推仍要小心。
- 評估的是 unsupervised threat hunting,不代表模型在人機協作或 constrained workflows 下沒有價值。
但這些限制不會削弱它最核心的貢獻:它確實把一個業界很常講、但很少被嚴格衡量的能力——agentic threat hunting——拉到了一個比較能反映現場的測試框架裡。
重點整理
- Cyber Defense Benchmark 測的不是安全問答,而是 在大型 Windows event log 資料庫中自主 threat hunting 的能力。
- Benchmark 基於 106 個真實 attack procedures,涵蓋 86 個 ATT&CK sub-techniques、12 個 tactics。
- 每個 episode 提供 75,000–135,000 筆 logs 的 SQLite 資料庫,agent 必須透過 SQL 逐步找出惡意事件 timestamps。
- 五個 frontier models 中,最佳的 Claude Opus 4.6 平均也只有 3.8% 正確 malicious flags。
- 作者定義的部署最低門檻是 每個 tactic 至少 50% recall;沒有任何模型通過。
- 這代表當前 LLM 在 open-ended、evidence-driven threat hunting 上,與可無監督部署的標準仍有明顯距離。
Takeaway
這篇真正打臉的,不是哪一個模型,而是那種「安全 benchmark 分數好看,所以可以很快接手 SOC」的想像。Threat hunting 不是把 ATT&CK 名詞背熟,也不是把 logs 解釋得頭頭是道;它本質上是一個在高噪音資料裡持續搜尋、修正、收斂、補漏的查案流程。至少從這篇看,今天的 LLM 還遠沒有穩到能自己值這個班。
更白話地說:AI 現在也許能當 SOC 的副駕,但還不該被誤認成已經能獨自開完全程的威脅獵人。
免責聲明
本文由 AI 產生、整理與撰寫,內容主要依據公開論文、技術文件與可取得之研究資料進行彙整、解讀與摘要。儘管已盡力確保內容之完整性與可讀性,仍可能因模型理解限制、資料來源差異或語意轉譯過程而存在疏漏、不精確或更新延遲之處。本文內容僅供研究交流與知識分享參考,實際技術細節、實驗設定與最終結論,仍應以原始論文、官方文件及作者公開資料為準。
