CTI-REALM 論文閱讀分析：LLM Agent 真的能把威脅情報寫成偵測規則嗎？

2026 年 4 月 8 日

論文基本資訊

論文標題：CTI-REALM: Benchmark to Evaluate Agent Performance on Security Detection Rule Generation Capabilities
作者：Arjun Chakraborty、Sandra Ho、Adam Cook、Manuel Meléndez
年份：2026
來源：arXiv:2603.13517v2
論文連結：https://arxiv.org/abs/2603.13517
主題：CTI、LLM Agent、Detection Engineering、Benchmark、KQL、Sigma、SOC、Azure

如果前面幾篇像 CTIBench、CTIArena、AthenaBench 比較集中在「模型懂不懂 CTI 知識」、ExCyTIn-Bench 則把場景推到 investigation workflow，那 CTI-REALM 更進一步處理的是另一個藍隊核心工作：模型到底能不能根據威脅情報，真的做出可用的 detection rule？

這篇論文的價值很直接。它不再滿足於問模型：「這是哪個 ATT&CK technique？」「這段威脅描述在講什麼？」而是把 agent 放進一個更像 detection engineer 的環境裡，要求它：

先讀 CTI report
理解威脅脈絡與 TTP
知道該查哪些 telemetry sources
實際寫查詢、反覆修正
最後產出 Sigma rule 與 KQL detection

也就是說，這篇論文真正評估的不是「security 問答」，而是端到端 detection engineering 能力。

這篇論文要補哪個空缺？

作者指出，現有資安 benchmark 雖然越來越多，但大多仍偏向幾種任務：

parametric knowledge 測試
單一步驟 rule synthesis
TTP classification / attribution / QA
靜態 benchmark score 比較

問題是，真實 detection engineering 根本不是這樣。分析師平常做的是：

看 threat report 提煉攻擊重點
把 TTP 轉成 log 觀測點
理解不同資料表的 schema
試 query、看結果、再修 query
最後才把 detection logic 固化為規則

所以作者要回答的其實是：

如果我們真的想知道 AI agent 能不能協助 detection engineering，就不能只測它會不會背知識；我們得測它能不能走完整個 workflow。

CTI-REALM 正是為了這個空缺而設計。

CTI-REALM 是什麼？

CTI-REALM 全名是 Cyber Threat Real World Evaluation and LLM Benchmarking。它是一個專門評估 AI agents 在 detection rule generation 上表現的 benchmark。

從任務定義來看，agent 的輸入與輸出非常清楚：

輸入：來自公開 threat research / detection references 的 CTI 報告，以及攻擊模擬產生的 telemetry logs
輸出：能偵測該威脅行為的 Sigma 規則 與 KQL 查詢
限制：agent 只能用容器環境內提供的工具，不能外連亂查，也不能改 telemetry

這個設計很重要。因為它把 agent 放到一個可控、可重現、可驗證的安全工作環境裡，而不是讓模型隨便憑印象回答。

資料怎麼來？不是玩具資料

論文的 benchmark 建立在真實攻擊模擬與真實遙測資料之上。作者從 37 份公開 CTI 報告與 detection references 出發，來源包括：

Microsoft Security
Datadog Security Labs
Palo Alto Networks
Splunk Security Content

然後在隔離的 Azure sandbox 裡重現攻擊，收集遙測，再把資料清洗與匿名化後放入評測環境。

這些模擬跨越三種平台：

Linux endpoints
Azure Kubernetes Service (AKS)
Azure cloud infrastructure

難度也分層：

easy：atomic single-step attacks
medium：multi-step sequences
hard：需要跨資料源關聯的複合 attack chains

作者最後做出兩個版本：

CTI-REALM-25：25 個任務，適合快速迭代
CTI-REALM-50：50 個任務，評估面更完整

其中 CTI-REALM-50 的組成是：

25 個 Linux 任務
17 個 AKS 任務
8 個 Cloud 任務

這代表它不是單純偏向 endpoint log，也不是只做某一種 SIEM query demo，而是有意識地把 detection engineering 裡最麻煩的 heterogeneity 帶進來。

環境設計：為什麼這篇 benchmark 比一般 security QA 更有意義？

CTI-REALM 的關鍵，不只是資料來源真，而是環境設計很像真的 detection engineer workspace。

論文裡的 containerized environment 包含幾個核心元件：

CTI repository：37 份原始 threat reports
Kusto cluster：可執行 KQL 查詢
telemetry logs：多來源安全日誌
MITRE ATT&CK database：做 threat context mapping
Sigma rules database：作為既有規則參考

日誌來源也很完整，涵蓋：

endpoint telemetry（如 device process / file events）
AKS audit logs
Azure activity 與 diagnostics
identity / authentication logs
application-layer logs

換句話說，agent 面對的不是一張乾淨的小表，而是一個接近真實藍隊工作檯的資料平面。這讓 benchmark 真正能測到：

會不會讀報告
會不會找 ATT&CK 對應
會不會找對 log source
會不會寫查詢
會不會把 query 結果轉成 detection rule

八個專用工具：這其實是在測 agent，而不是單一 LLM

作者讓 agent 透過結構化 API 與環境互動，總共提供 八個 specialized tools。論文主文沒有逐一展開所有細節，但從功能描述可以看出，這些工具涵蓋：

CTI report retrieval
threat context / technique mapping
schema exploration
query execution
rule development 所需的資訊查找

這點很值得注意。因為 CTI-REALM 的問題意識不是「單一模型本體多強」，而是：當模型變成一個可以調工具、查資料、逐步推進任務的 agent 時，它整體能完成多少 detection engineering 工作？

這也是為什麼它比單純 prompt-to-rule 的工作更實際。

最值得記住的設計：trajectory-based reward

CTI-REALM 最漂亮的地方之一，是它不是只看最後規則有沒有答對，而是把整個 detection engineering workflow 拆成多個 checkpoint。

作者把任務建模成一個 sequential decision-making problem，並用 MDP 形式描述，總 reward 為：

R_total = Σ (w_i × r_i)

其中 checkpoint 分成五段：

C0 – CTI Report Analysis：有沒有找對、理解對 threat report
C1 – Threat Context：有沒有正確抓出 MITRE ATT&CK techniques
C2 – Data Exploration：有沒有找到正確 telemetry sources
C3 – Query Execution：有沒有真的反覆查詢與修正
C4 – Detection Quality：最後 KQL 與 Sigma 規則品質如何

權重設計也很有意思：

C0：0.125
C1：0.075
C2：0.10
C3：0.05
C4：0.65

也就是說，作者承認中間步驟很重要，但最終仍然把真正可用的 detection quality 放在最重的位置。

這個設計比很多 benchmark 成熟，因為它避免兩種極端：

只看 final answer，忽略 agent 過程品質
只看過程是否熱鬧，最後卻產不出像樣規則

評分方法：deterministic + LLM-as-judge 混搭

論文的評估框架同時使用 deterministic 與 non-deterministic 方式。

比較硬的部分，用較可重現的指標衡量：

tool usage verification
Jaccard similarity（比對 techniques 與 data sources）
regex / F1-score（檢查 KQL 命中品質）

比較主觀或語意面的部分，則交給 GPT-5-Mini 作為 LLM-as-a-judge，例如：

report relevance
Sigma rule quality

這種混搭其實很務實。因為 detection engineering 不是所有面向都能只靠 exact-match 解決，但若全部交給 LLM judge 又容易失控。作者在這裡做的是一個工程上相對平衡的折衷。

實驗設定：作者測了哪些模型？

作者總共測了 16 個 frontier model configurations，包括：

Anthropic Claude 系列（Opus 4.6 High、Opus 4.5、Sonnet 4.5）
OpenAI GPT-5 / 5.1 / 5.2 不同 reasoning effort 設定
GPT-5-Mini
GPT-4.1
O3、O4-Mini 等 reasoning-oriented models

agent 架構則固定使用 ReAct，每個任務上限 70 messages。這樣做的目的，是盡量把差異集中在 model capability，而不是 agent harness 寫法不同。

主要結果：最強也沒有強到讓人放心

這篇論文最值得認真看的不是哪家模型第一，而是：即使是目前最強的一批模型，在完整 detection engineering workflow 上也還遠遠不到輕鬆過關。

整體結果裡，最佳模型是：

Claude Opus 4.6 (High)：0.637
Claude Opus 4.5：0.624
Claude Sonnet 4.5：0.587
GPT-5 (Med)：0.572
GPT-5.2 (Med)：0.572

從數字看，最高分 0.637 其實已經不低，但問題在於：這是經過工具輔助、完整工作流設計後的最強表現，而且仍然顯示很多任務做不到穩定完成。

更關鍵的是平台差異：

Linux 任務平均：0.585
AKS 任務平均：0.517
Cloud 任務平均：0.282

Cloud 類型的成績幾乎腰斬，這揭露了真正困難的地方：跨資料源、跨身份、跨服務的關聯式 detection，仍然是當前 agent 最脆弱的部分。

一個很有意思的發現：medium reasoning 比 high 更好

論文的一個亮點，是它不是只比較模型，還比較 reasoning effort。

作者發現，在 GPT-5 家族裡，medium reasoning effort consistently outperform high reasoning。也就是說：

不是想得越久就越好
太高的 reasoning budget 可能反而造成 overthinking
在 agentic security workflow 中，過度思考有時會拖慢或偏離有效 query strategy

這一點和很多人對 reasoning model 的直覺相反，但其實很合理。Detection engineering 不是純數學證明，也不是單題 coding；它需要的是持續前進、逐步修正、工具互動效率。在這種任務裡，過度展開 chain-of-thought 不一定轉化成更好的行動。

Checkpoint analysis：Claude 為什麼贏？

從論文的 checkpoint 分析來看，Claude 類模型領先的原因主要不是單一知識點，而是整體 agent workflow 表現更強，尤其是：

C0 – CTI report analysis
C3 – query execution

其中 C3 最能拉開差距。作者指出 Claude 在 query execution 的 normalized reward 可達 0.86–0.92，而多數 OpenAI 模型低於 0.50，GPT-4.1 甚至只有 0.02。

這說明了一件很重要的事：在 detection engineering 這種任務裡，真正的差距常常不是知道 ATT&CK，而是會不會把知識轉成有效查詢與連續探索。

Ablation study：CTI-specific tools 真的有用嗎？

作者很負責任地做了一組 ablation：把 CTI-specific tools 拿掉，看模型會不會只是靠內建知識硬撐。

結果是所有模型都退步，而且退得不小：

Claude Opus 4.5：-0.150
GPT-5 (Med)：-0.134
GPT-5.1 (Med)：-0.117
Claude Opus 4.6 (High)：-0.077

這表示 benchmark 不是在測誰背得多，而是真正測到 tool augmentation 的效果。尤其作者指出，當拿掉 CTI tools 後，最終 detection quality（C4）普遍下降，代表 CTI context 對產出高品質偵測規則是必要的。

Memory augmentation：小模型能不能補一點回來？

另一個很值得看的實驗，是 memory augmentation。作者給 GPT-5-Mini 一組人工整理過的 detection engineering guidance，包括：

workflow guidance
tool usage tips
Sigma / KQL pattern templates

結果從 0.371 提升到 0.432，也就是補回了 GPT-5 (Med) 與 GPT-5-Mini 之間大約 33% 的差距。

這個發現很實務。它表示在安全 agent 系統裡，不是只有換更大模型一條路。如果把 workflow、query patterns、debugging heuristics 寫成可檢索的 operational memory，小模型也能明顯進步。

但作者也指出，memory 主要補的是知識型 checkpoint，例如 MITRE mapping；真正難補的還是 query construction。這再次說明：安全 agent 的核心瓶頸，依然是行動式推理，而不只是知識缺口。

如果用教授做筆記的方式，這篇 paper 要抓哪幾點？

這篇 paper 的核心任務不是一般 CTI QA，而是 end-to-end detection engineering。
benchmark 建立在真實 attack emulation 與 Azure telemetry 上，不是純合成題。
任務要求 agent 從 CTI report 出發，最終產出 Sigma + KQL 規則。
評估框架不是單一 final score，而是拆成 C0–C4 五個 checkpoints。
作者把 detection engineering 視為 sequential decision-making problem，這使它天然適合 RL 與 agent training。
實驗結果顯示 Claude 系列目前在這條工作流上更強，尤其在 query execution。
Cloud 類任務最難，說明跨來源關聯仍是當前 agent 的重大瓶頸。
CTI tools 與 seeded memory 都有明顯價值，但無法完全取代模型本身的 query 能力。

這篇論文的價值在哪裡？

我認為 CTI-REALM 的價值主要有三層。

第一，它把 detection engineering 正式變成可衡量的 agent benchmark

這很重要，因為在這之前，很多「AI for SOC」論文仍停在 rule generation demo 或零碎 task benchmark，沒有真正把 analyst workflow 收斂成可重現評測。

第二，它提醒我們：真正的安全 agent 不只是知識模型

會背 ATT&CK、會講威脅報告，和會做 detection engineering 是兩回事。真正困難的是把 threat context 轉成 log thinking，再轉成 query，再轉成 rule。

第三，它提供了很適合未來 RL / memory / tool augmentation 研究的框架

因為有 checkpoint rewards、有結構化工具、有真實資料平面，所以 CTI-REALM 不只是 benchmark，也很像下一代 security agent 訓練場。

限制與保留

當然，這篇論文也有幾個要一起看的限制：

Azure-centric：主要是 Azure telemetry 與 KQL，未必直接外推到 AWS / GCP / Splunk / Elastic
還不是完整 SOC：沒有涵蓋大規模 production volume、長期 anomaly baseline 等現場因素
agent architecture 固定：目前主要用 ReAct，未充分比較更多 orchestration 策略
LLM-as-judge 仍有主觀性：雖然作者有人工驗證，但終究不是完全 deterministic

不過整體來說，這些限制沒有削弱它的主價值，反而只是提醒我們：這是很像真實世界的第一代框架，不是最終版本。

總結

CTI-REALM 是一篇非常值得放進近年 CTI / AI / Agent benchmark 主線的論文，因為它抓到了一個真正重要、也真正困難的問題：AI agent 能不能根據 threat intelligence 做出可執行、可驗證、可落地的 detection rules？

它最值得記住的幾點是：

不是只測安全知識，而是測 end-to-end detection engineering workflow
建立在真實 attack emulation、真實 telemetry 與真實查詢環境上
用 checkpoint rewards 拆解 agent 的中間能力與最終規則品質
目前最強模型也仍有明顯限制，尤其在 cloud correlation 與 query refinement
tool augmentation 與 memory augmentation 都有價值，但無法完全取代核心 agent capability

如果 ExCyTIn-Bench 在問的是「agent 能不能辦案」，那 CTI-REALM 問的就是：「agent 辦完案之後，能不能把理解真正轉成偵測能力？」對藍隊實務來說，這一步甚至更關鍵。因為能回答問題很有用，但能寫出可靠 detection，才是真的開始進入防禦體系。

免責聲明

本文由 AI 產生、整理與撰寫，內容主要依據公開論文、技術文件與可取得之研究資料進行彙整、解讀與摘要。儘管已盡力確保內容之完整性與可讀性，仍可能因模型理解限制、資料來源差異或語意轉譯過程而存在疏漏、不精確或更新延遲之處。本文內容僅供研究交流與知識分享參考，實際技術細節、實驗設定與最終結論，仍應以原始論文、官方文件及作者公開資料為準。

CTI-REALM 論文閱讀分析：LLM Agent 真的能把威脅情報寫成偵測規則嗎？

論文基本資訊

這篇論文要補哪個空缺？

CTI-REALM 是什麼？

資料怎麼來？不是玩具資料

環境設計：為什麼這篇 benchmark 比一般 security QA 更有意義？

八個專用工具：這其實是在測 agent，而不是單一 LLM

最值得記住的設計：trajectory-based reward

評分方法：deterministic + LLM-as-judge 混搭

實驗設定：作者測了哪些模型？

主要結果：最強也沒有強到讓人放心

一個很有意思的發現：medium reasoning 比 high 更好

Checkpoint analysis：Claude 為什麼贏？

Ablation study：CTI-specific tools 真的有用嗎？

Memory augmentation：小模型能不能補一點回來？

如果用教授做筆記的方式，這篇 paper 要抓哪幾點？

這篇論文的價值在哪裡？

第一，它把 detection engineering 正式變成可衡量的 agent benchmark

第二，它提醒我們：真正的安全 agent 不只是知識模型

第三，它提供了很適合未來 RL / memory / tool augmentation 研究的框架

限制與保留

總結

免責聲明

發佈留言取消回覆

You may also like

近期文章

廣告

文章分類

近期留言

論文基本資訊

這篇論文要補哪個空缺？

CTI-REALM 是什麼？

資料怎麼來？不是玩具資料

環境設計：為什麼這篇 benchmark 比一般 security QA 更有意義？

八個專用工具：這其實是在測 agent，而不是單一 LLM

最值得記住的設計：trajectory-based reward

評分方法：deterministic + LLM-as-judge 混搭

實驗設定：作者測了哪些模型？

主要結果：最強也沒有強到讓人放心

一個很有意思的發現：medium reasoning 比 high 更好

Checkpoint analysis：Claude 為什麼贏？

Ablation study：CTI-specific tools 真的有用嗎？

Memory augmentation：小模型能不能補一點回來？

如果用教授做筆記的方式，這篇 paper 要抓哪幾點？

這篇論文的價值在哪裡？

第一，它把 detection engineering 正式變成可衡量的 agent benchmark

第二，它提醒我們：真正的安全 agent 不只是知識模型

第三，它提供了很適合未來 RL / memory / tool augmentation 研究的框架

限制與保留

總結

免責聲明

發佈留言 取消回覆

You may also like

SCDT 論文閱讀分析：很多 ICS anomaly detection 真正缺的，不是再多一個分數，而是先把控制脈絡說清楚

Offensive Security Agent 架構論文閱讀分析：很多系統真正缺的，不是再多幾個分身，而是先知道什麼時候單兵就夠

近期文章

廣告

文章分類

近期留言

發佈留言取消回覆