Cyber Defense Benchmark 論文閱讀分析：很多 SOC AI 真正還不會的，不是回答安全問題，而是自己把惡意事件從海量 log 裡找出來

2026 年 4 月 22 日

本文由 AI 產生、整理與撰寫。

論文基本資訊

論文標題：Cyber Defense Benchmark: Agentic Threat Hunting Evaluation for LLMs in SecOps
作者：Ambuj Kumar
年份：2026
來源：arXiv:2604.19533
論文連結：https://arxiv.org/abs/2604.19533
DOI：10.48550/arXiv.2604.19533
主題：Threat Hunting、SecOps、SOC、LLM Agents、Windows Event Logs、Benchmark

這篇最值得看的，不是它又做了一個新 benchmark，而是它把題目拉回 SOC 現場最不浪漫、也最難作弊的那件事：面對一大坨原始 Windows event logs，沒有提示、沒有選擇題、沒有已整理好的 IOC，模型到底能不能自己把惡意事件的時間點挖出來？

作者的答案很直接，而且有點殘酷：現在不行，差得還很遠。

如果只用一句話講完這篇的核心，那就是：

很多 LLM 在安全 benchmark 上看起來很能打，但一旦真的把它丟進 evidence-driven、open-ended 的 threat hunting 流程裡，它們連最基本的「把壞事件找全」都做不到。

這篇論文在解什麼問題？

目前很多 cyber + LLM 評測，常見題型還是：

給你整理過的案例，問「這是哪種 ATT&CK technique？」
給你一段 log / 程式 / IOC，問「這看起來像什麼攻擊？」
給你明確問題，要求模型回答或摘要

這些題目不是沒價值，但它們有一個共同問題：上下文通常已經被人類整理過，問題也已經被人類定義好了。 真實 SOC 的 threat hunting 則反過來：分析師往往先拿到的是一個巨大的資料庫，必須自己想查法、自己縮小範圍、自己建立假設，再把惡意事件從海量正常事件中撈出來。

作者因此想測的不是「模型懂不懂安全名詞」，而是更實戰的能力：

當你只給 LLM agent 一個含有數萬到十幾萬筆 Windows logs 的 SQLite 資料庫，它能不能像一個 threat hunter 一樣，透過反覆查詢與驗證，把真正的惡意事件時間點抓出來？

Benchmark 怎麼做？重點不是問答，而是查案

Cyber Defense Benchmark 的設計我覺得很對味，因為它刻意避開那種容易被 prompt engineering 灌水的題型。

論文把 OTRF Security-Datasets 裡的 106 個真實 attack procedures 包裝成 benchmark episode，涵蓋：

86 個 MITRE ATT&CK sub-techniques
12 個 tactics
Windows 事件記錄場景

每個 episode 都提供一個 in-memory SQLite database，裡面有大約 75,000 到 135,000 筆 log records。更麻煩的是，這些資料不是原封不動丟進去，而是經過 deterministic campaign simulator 做：

時間平移（time-shifting）
實體混淆（entity obfuscation）

這意味著 agent 不能只靠背資料集或記熟固定 pattern，而得真的查、真的比對、真的推理。

任務形式也很清楚：agent 要不斷送出 SQL queries，逐步定位可疑事件，最後把它認定為惡意的精確 timestamps 明確 flag 出來。評分則用類 CTF 的方式，拿 agent 的 flags 去對 Sigma-rule-derived ground truth。

這個 framing 很重要，因為它測的不是「會不會答題」，而是：

會不會自己形成 hunting hypothesis
會不會把查詢空間逐步收斂
會不會在噪音中找證據
會不會把 evidence 轉成可以交付的 detection 結果

結果有多慘？比很多人以為的還慘

作者拿這個 benchmark 去測五個 frontier models：Claude Opus 4.6、GPT-5、Gemini 3.1 Pro、Kimi K2.5、Gemini 3 Flash，在 26 個 campaigns 上測了可覆蓋的 105 / 106 procedures。

headline 幾乎一眼就夠了：

表現最好的 Claude Opus 4.6，平均也只找對 3.8% 的惡意事件 flags
沒有任何一次 run 能把某個 campaign 裡所有惡意 flags 全抓出來
作者定義的最低及格線是：每個 ATT&CK tactic 至少 50% recall
結果最好的模型也只在 13 個 tactic 中的 5 個 過線，其餘模型則是 0 個

這不是「還差一點點」。這是很典型的：模型看起來懂很多安全語彙，但一進到沒有提示、沒有答案框、需要靠證據自己收斂的環境，能力直接斷層。

這篇最重要的訊息：open-ended hunt 和 benchmark 問答根本不是同一件事

我覺得這篇最有價值的地方，是它讓很多對 SecOps AI 的樂觀敘事突然踩了煞車。

近一年很常看到這種說法：

模型在資安測驗表現很好
模型能回答 ATT&CK、CVE、IOC、malware analysis 問題
模型能產生 Sigma / YARA / triage 摘要

這些能力當然有用，但這篇告訴你：把「懂得回答安全問題」誤認成「有能力獨立做 threat hunting」，中間其實隔著一道非常大的 operational gap。

原因很簡單。Threat hunting 不是單輪 QA，而是一個連續過程：

先從混亂資料中建立可疑假設
決定下一步該查哪個欄位、哪個時間窗、哪個主機或帳號
根據前一次查詢結果修正策略
在高噪音中保留真正有鑑別力的證據
最後把推論落成精確、可驗證的 malicious event flags

這整條鏈，對 agent 的要求不是知識量而已，而是搜尋策略、狀態管理、證據收斂、以及持續不走偏的能力。而這正是很多 LLM 最脆弱的地方。

為什麼這個 benchmark 比很多 cyber benchmark 更接近現場？

因為它刻意保留了真實分析工作裡最討厭、卻最關鍵的幾個元素：

資料量大：不是幾十行範例，而是數萬到十幾萬筆 logs
提示少：沒有把問題切成好回答的小題目
工具導向：要靠 SQL 查詢逐步逼近，不是直接嘴答案
重召回：不是抓到一兩個亮點就算贏，而是要盡量找全
攻擊程序真實：基於 OTRF Security-Datasets，不是純合成玩具世界

特別是作者把「通過門檻」定義成 每個 tactic 都至少 50% recall，這很合理。因為 SOC 不是在比誰答得漂亮，而是在比你漏掉多少真事件。如果某幾類 tactics 幾乎抓不到，那就不是部署門檻還差一點，而是根本還不能放心交班。

這篇對 CTI / SecOps 的啟示是什麼？

我會把它的啟示分成四點。

1. 現在的 LLM 更像輔助分析員，不像 autonomous hunter

這篇結果很清楚：至少在 open-ended log hunting 這種任務上，LLM agent 還遠不到能獨立值班的程度。它比較適合做：

協助產生查詢初稿
幫忙解釋 ATT&CK / artifact 關聯
整理發現與撰寫報告
從人類已經縮小過的範圍內做二次分析

但若要直接讓它在沒有監督的情況下接手 threat hunting，這篇的數據基本上是否決票。

2. 以後評測 SecOps AI，不能只看答題型 benchmark

如果一個模型在安全知識題、分類題、摘要題拿高分，很容易讓人誤以為它也能處理實務 hunting。這篇就是提醒：evaluation design 決定你到底在量知識展示，還是在量真實作業能力。

對買產品的人來說，這也很重要。看到 vendor 說自己在某某 cyber benchmark 幾分幾分，下一句該問的是：

它在 open-ended evidence search、低提示、高噪音、重召回的場景下還剩多少能力？

3. 真正卡住 agent 的，不只是安全知識，而是 search discipline

很多人會以為 threat hunting 做不好，是因為模型不懂 ATT&CK、不懂 malware、不懂 event schema。但這篇比較像在說：知道名詞不等於會查案。

Agent 真正難的是：

何時該 broad scan、何時該 narrow down
哪些欄位值得先查
查不到東西時怎麼修正假設
怎麼避免在大量正常事件裡迷路

這種能力比較接近「有紀律的 investigation loop」，不是單純的問答或文本生成。

4. SecOps 的 AI 成熟路線，可能要先走 human-in-the-loop 與 workflow-constrained automation

既然完全開放式 hunting 還很不行，那比較務實的方向可能不是硬追求 full autonomy，而是先把模型放進比較窄、邊界比較清楚的工作流，例如：

從告警出發做 evidence enrichment
由人類指定 hunting hypothesis 後讓 agent 執行部分查詢
把已知 TTP 轉成可執行查詢模板
在 bounded scope 內做 triage 與報告生成

也就是說，先讓 AI 在有欄杆的調查流程裡穩定發揮，再談完全自主 hunting，可能比較接近現實。

這篇論文的限制

作者摘要中沒有展開每個模型失敗模式的細緻分類；如果未來有更完整 trace 分析，會更有助於理解 agent 究竟卡在哪一段。
場景聚焦在 Windows event logs，對雲端、EDR、網路流量與 mixed telemetry 的外推仍要小心。
評估的是 unsupervised threat hunting，不代表模型在人機協作或 constrained workflows 下沒有價值。

但這些限制不會削弱它最核心的貢獻：它確實把一個業界很常講、但很少被嚴格衡量的能力——agentic threat hunting——拉到了一個比較能反映現場的測試框架裡。

重點整理

Cyber Defense Benchmark 測的不是安全問答，而是 在大型 Windows event log 資料庫中自主 threat hunting 的能力。
Benchmark 基於 106 個真實 attack procedures，涵蓋 86 個 ATT&CK sub-techniques、12 個 tactics。
每個 episode 提供 75,000–135,000 筆 logs 的 SQLite 資料庫，agent 必須透過 SQL 逐步找出惡意事件 timestamps。
五個 frontier models 中，最佳的 Claude Opus 4.6 平均也只有 3.8% 正確 malicious flags。
作者定義的部署最低門檻是 每個 tactic 至少 50% recall；沒有任何模型通過。
這代表當前 LLM 在 open-ended、evidence-driven threat hunting 上，與可無監督部署的標準仍有明顯距離。

Takeaway

這篇真正打臉的，不是哪一個模型，而是那種「安全 benchmark 分數好看，所以可以很快接手 SOC」的想像。Threat hunting 不是把 ATT&CK 名詞背熟，也不是把 logs 解釋得頭頭是道；它本質上是一個在高噪音資料裡持續搜尋、修正、收斂、補漏的查案流程。至少從這篇看，今天的 LLM 還遠沒有穩到能自己值這個班。

更白話地說：AI 現在也許能當 SOC 的副駕，但還不該被誤認成已經能獨自開完全程的威脅獵人。

免責聲明

本文由 AI 產生、整理與撰寫，內容主要依據公開論文、技術文件與可取得之研究資料進行彙整、解讀與摘要。儘管已盡力確保內容之完整性與可讀性，仍可能因模型理解限制、資料來源差異或語意轉譯過程而存在疏漏、不精確或更新延遲之處。本文內容僅供研究交流與知識分享參考，實際技術細節、實驗設定與最終結論，仍應以原始論文、官方文件及作者公開資料為準。

Cyber Defense Benchmark 論文閱讀分析：很多 SOC AI 真正還不會的，不是回答安全問題，而是自己把惡意事件從海量 log 裡找出來

論文基本資訊

這篇論文在解什麼問題？

Benchmark 怎麼做？重點不是問答，而是查案

結果有多慘？比很多人以為的還慘

這篇最重要的訊息：open-ended hunt 和 benchmark 問答根本不是同一件事

為什麼這個 benchmark 比很多 cyber benchmark 更接近現場？

這篇對 CTI / SecOps 的啟示是什麼？

1. 現在的 LLM 更像輔助分析員，不像 autonomous hunter

2. 以後評測 SecOps AI，不能只看答題型 benchmark

3. 真正卡住 agent 的，不只是安全知識，而是 search discipline

4. SecOps 的 AI 成熟路線，可能要先走 human-in-the-loop 與 workflow-constrained automation

這篇論文的限制

重點整理

Takeaway

免責聲明

發佈留言取消回覆

You may also like

近期文章

廣告

文章分類

近期留言

論文基本資訊

這篇論文在解什麼問題？

Benchmark 怎麼做？重點不是問答，而是查案

結果有多慘？比很多人以為的還慘

這篇最重要的訊息：open-ended hunt 和 benchmark 問答根本不是同一件事

為什麼這個 benchmark 比很多 cyber benchmark 更接近現場？

這篇對 CTI / SecOps 的啟示是什麼？

1. 現在的 LLM 更像輔助分析員，不像 autonomous hunter

2. 以後評測 SecOps AI，不能只看答題型 benchmark

3. 真正卡住 agent 的，不只是安全知識，而是 search discipline

4. SecOps 的 AI 成熟路線，可能要先走 human-in-the-loop 與 workflow-constrained automation

這篇論文的限制

重點整理

Takeaway

免責聲明

發佈留言 取消回覆

You may also like

CTI Echo Chamber 論文閱讀分析：真正危險的可能不是情資太少，而是大家其實都在看彼此差不多的地方

MCPThreatHive 論文閱讀分析：當 MCP 生態開始爆量成長，真正缺的就不只是 scanner，而是一套活的威脅情報底座

近期文章

廣告

文章分類

近期留言

發佈留言取消回覆