Cyber Defense Benchmark 論文閱讀分析:很多 SOC AI 真正還不會的,不是回答安全問題,而是自己把惡意事件從海量 log 裡找出來

本文由 AI 產生、整理與撰寫。

論文基本資訊

  • 論文標題:Cyber Defense Benchmark: Agentic Threat Hunting Evaluation for LLMs in SecOps
  • 作者:Ambuj Kumar
  • 年份:2026
  • 來源:arXiv:2604.19533
  • 論文連結:https://arxiv.org/abs/2604.19533
  • DOI:10.48550/arXiv.2604.19533
  • 主題:Threat Hunting、SecOps、SOC、LLM Agents、Windows Event Logs、Benchmark

這篇最值得看的,不是它又做了一個新 benchmark,而是它把題目拉回 SOC 現場最不浪漫、也最難作弊的那件事:面對一大坨原始 Windows event logs,沒有提示、沒有選擇題、沒有已整理好的 IOC,模型到底能不能自己把惡意事件的時間點挖出來?

作者的答案很直接,而且有點殘酷:現在不行,差得還很遠。

如果只用一句話講完這篇的核心,那就是:

很多 LLM 在安全 benchmark 上看起來很能打,但一旦真的把它丟進 evidence-driven、open-ended 的 threat hunting 流程裡,它們連最基本的「把壞事件找全」都做不到。

這篇論文在解什麼問題?

目前很多 cyber + LLM 評測,常見題型還是:

  • 給你整理過的案例,問「這是哪種 ATT&CK technique?」
  • 給你一段 log / 程式 / IOC,問「這看起來像什麼攻擊?」
  • 給你明確問題,要求模型回答或摘要

這些題目不是沒價值,但它們有一個共同問題:上下文通常已經被人類整理過,問題也已經被人類定義好了。 真實 SOC 的 threat hunting 則反過來:分析師往往先拿到的是一個巨大的資料庫,必須自己想查法、自己縮小範圍、自己建立假設,再把惡意事件從海量正常事件中撈出來。

作者因此想測的不是「模型懂不懂安全名詞」,而是更實戰的能力:

當你只給 LLM agent 一個含有數萬到十幾萬筆 Windows logs 的 SQLite 資料庫,它能不能像一個 threat hunter 一樣,透過反覆查詢與驗證,把真正的惡意事件時間點抓出來?

Benchmark 怎麼做?重點不是問答,而是查案

Cyber Defense Benchmark 的設計我覺得很對味,因為它刻意避開那種容易被 prompt engineering 灌水的題型。

論文把 OTRF Security-Datasets 裡的 106 個真實 attack procedures 包裝成 benchmark episode,涵蓋:

  • 86 個 MITRE ATT&CK sub-techniques
  • 12 個 tactics
  • Windows 事件記錄場景

每個 episode 都提供一個 in-memory SQLite database,裡面有大約 75,000 到 135,000 筆 log records。更麻煩的是,這些資料不是原封不動丟進去,而是經過 deterministic campaign simulator 做:

  • 時間平移(time-shifting)
  • 實體混淆(entity obfuscation)

這意味著 agent 不能只靠背資料集或記熟固定 pattern,而得真的查、真的比對、真的推理。

任務形式也很清楚:agent 要不斷送出 SQL queries,逐步定位可疑事件,最後把它認定為惡意的精確 timestamps 明確 flag 出來。評分則用類 CTF 的方式,拿 agent 的 flags 去對 Sigma-rule-derived ground truth。

這個 framing 很重要,因為它測的不是「會不會答題」,而是:

  • 會不會自己形成 hunting hypothesis
  • 會不會把查詢空間逐步收斂
  • 會不會在噪音中找證據
  • 會不會把 evidence 轉成可以交付的 detection 結果

結果有多慘?比很多人以為的還慘

作者拿這個 benchmark 去測五個 frontier models:Claude Opus 4.6、GPT-5、Gemini 3.1 Pro、Kimi K2.5、Gemini 3 Flash,在 26 個 campaigns 上測了可覆蓋的 105 / 106 procedures

headline 幾乎一眼就夠了:

  • 表現最好的 Claude Opus 4.6,平均也只找對 3.8% 的惡意事件 flags
  • 沒有任何一次 run 能把某個 campaign 裡所有惡意 flags 全抓出來
  • 作者定義的最低及格線是:每個 ATT&CK tactic 至少 50% recall
  • 結果最好的模型也只在 13 個 tactic 中的 5 個 過線,其餘模型則是 0 個

這不是「還差一點點」。這是很典型的:模型看起來懂很多安全語彙,但一進到沒有提示、沒有答案框、需要靠證據自己收斂的環境,能力直接斷層。

這篇最重要的訊息:open-ended hunt 和 benchmark 問答根本不是同一件事

我覺得這篇最有價值的地方,是它讓很多對 SecOps AI 的樂觀敘事突然踩了煞車。

近一年很常看到這種說法:

  • 模型在資安測驗表現很好
  • 模型能回答 ATT&CK、CVE、IOC、malware analysis 問題
  • 模型能產生 Sigma / YARA / triage 摘要

這些能力當然有用,但這篇告訴你:把「懂得回答安全問題」誤認成「有能力獨立做 threat hunting」,中間其實隔著一道非常大的 operational gap。

原因很簡單。Threat hunting 不是單輪 QA,而是一個連續過程:

  1. 先從混亂資料中建立可疑假設
  2. 決定下一步該查哪個欄位、哪個時間窗、哪個主機或帳號
  3. 根據前一次查詢結果修正策略
  4. 在高噪音中保留真正有鑑別力的證據
  5. 最後把推論落成精確、可驗證的 malicious event flags

這整條鏈,對 agent 的要求不是知識量而已,而是搜尋策略、狀態管理、證據收斂、以及持續不走偏的能力。而這正是很多 LLM 最脆弱的地方。

為什麼這個 benchmark 比很多 cyber benchmark 更接近現場?

因為它刻意保留了真實分析工作裡最討厭、卻最關鍵的幾個元素:

  • 資料量大:不是幾十行範例,而是數萬到十幾萬筆 logs
  • 提示少:沒有把問題切成好回答的小題目
  • 工具導向:要靠 SQL 查詢逐步逼近,不是直接嘴答案
  • 重召回:不是抓到一兩個亮點就算贏,而是要盡量找全
  • 攻擊程序真實:基於 OTRF Security-Datasets,不是純合成玩具世界

特別是作者把「通過門檻」定義成 每個 tactic 都至少 50% recall,這很合理。因為 SOC 不是在比誰答得漂亮,而是在比你漏掉多少真事件。如果某幾類 tactics 幾乎抓不到,那就不是部署門檻還差一點,而是根本還不能放心交班。

這篇對 CTI / SecOps 的啟示是什麼?

我會把它的啟示分成四點。

1. 現在的 LLM 更像輔助分析員,不像 autonomous hunter

這篇結果很清楚:至少在 open-ended log hunting 這種任務上,LLM agent 還遠不到能獨立值班的程度。它比較適合做:

  • 協助產生查詢初稿
  • 幫忙解釋 ATT&CK / artifact 關聯
  • 整理發現與撰寫報告
  • 從人類已經縮小過的範圍內做二次分析

但若要直接讓它在沒有監督的情況下接手 threat hunting,這篇的數據基本上是否決票。

2. 以後評測 SecOps AI,不能只看答題型 benchmark

如果一個模型在安全知識題、分類題、摘要題拿高分,很容易讓人誤以為它也能處理實務 hunting。這篇就是提醒:evaluation design 決定你到底在量知識展示,還是在量真實作業能力。

對買產品的人來說,這也很重要。看到 vendor 說自己在某某 cyber benchmark 幾分幾分,下一句該問的是:

它在 open-ended evidence search、低提示、高噪音、重召回的場景下還剩多少能力?

3. 真正卡住 agent 的,不只是安全知識,而是 search discipline

很多人會以為 threat hunting 做不好,是因為模型不懂 ATT&CK、不懂 malware、不懂 event schema。但這篇比較像在說:知道名詞不等於會查案。

Agent 真正難的是:

  • 何時該 broad scan、何時該 narrow down
  • 哪些欄位值得先查
  • 查不到東西時怎麼修正假設
  • 怎麼避免在大量正常事件裡迷路

這種能力比較接近「有紀律的 investigation loop」,不是單純的問答或文本生成。

4. SecOps 的 AI 成熟路線,可能要先走 human-in-the-loop 與 workflow-constrained automation

既然完全開放式 hunting 還很不行,那比較務實的方向可能不是硬追求 full autonomy,而是先把模型放進比較窄、邊界比較清楚的工作流,例如:

  • 從告警出發做 evidence enrichment
  • 由人類指定 hunting hypothesis 後讓 agent 執行部分查詢
  • 把已知 TTP 轉成可執行查詢模板
  • 在 bounded scope 內做 triage 與報告生成

也就是說,先讓 AI 在有欄杆的調查流程裡穩定發揮,再談完全自主 hunting,可能比較接近現實。

這篇論文的限制

  • 作者摘要中沒有展開每個模型失敗模式的細緻分類;如果未來有更完整 trace 分析,會更有助於理解 agent 究竟卡在哪一段。
  • 場景聚焦在 Windows event logs,對雲端、EDR、網路流量與 mixed telemetry 的外推仍要小心。
  • 評估的是 unsupervised threat hunting,不代表模型在人機協作或 constrained workflows 下沒有價值。

但這些限制不會削弱它最核心的貢獻:它確實把一個業界很常講、但很少被嚴格衡量的能力——agentic threat hunting——拉到了一個比較能反映現場的測試框架裡。

重點整理

  • Cyber Defense Benchmark 測的不是安全問答,而是 在大型 Windows event log 資料庫中自主 threat hunting 的能力。
  • Benchmark 基於 106 個真實 attack procedures,涵蓋 86 個 ATT&CK sub-techniques、12 個 tactics
  • 每個 episode 提供 75,000–135,000 筆 logs 的 SQLite 資料庫,agent 必須透過 SQL 逐步找出惡意事件 timestamps。
  • 五個 frontier models 中,最佳的 Claude Opus 4.6 平均也只有 3.8% 正確 malicious flags。
  • 作者定義的部署最低門檻是 每個 tactic 至少 50% recall;沒有任何模型通過。
  • 這代表當前 LLM 在 open-ended、evidence-driven threat hunting 上,與可無監督部署的標準仍有明顯距離。

Takeaway

這篇真正打臉的,不是哪一個模型,而是那種「安全 benchmark 分數好看,所以可以很快接手 SOC」的想像。Threat hunting 不是把 ATT&CK 名詞背熟,也不是把 logs 解釋得頭頭是道;它本質上是一個在高噪音資料裡持續搜尋、修正、收斂、補漏的查案流程。至少從這篇看,今天的 LLM 還遠沒有穩到能自己值這個班。

更白話地說:AI 現在也許能當 SOC 的副駕,但還不該被誤認成已經能獨自開完全程的威脅獵人。

免責聲明

本文由 AI 產生、整理與撰寫,內容主要依據公開論文、技術文件與可取得之研究資料進行彙整、解讀與摘要。儘管已盡力確保內容之完整性與可讀性,仍可能因模型理解限制、資料來源差異或語意轉譯過程而存在疏漏、不精確或更新延遲之處。本文內容僅供研究交流與知識分享參考,實際技術細節、實驗設定與最終結論,仍應以原始論文、官方文件及作者公開資料為準。

You may also like