CTI-REALM 論文閱讀分析:LLM Agent 真的能把威脅情報寫成偵測規則嗎?
論文基本資訊
- 論文標題:CTI-REALM: Benchmark to Evaluate Agent Performance on Security Detection Rule Generation Capabilities
- 作者:Arjun Chakraborty、Sandra Ho、Adam Cook、Manuel Meléndez
- 年份:2026
- 來源:arXiv:2603.13517v2
- 論文連結:https://arxiv.org/abs/2603.13517
- 主題:CTI、LLM Agent、Detection Engineering、Benchmark、KQL、Sigma、SOC、Azure
如果前面幾篇像 CTIBench、CTIArena、AthenaBench 比較集中在「模型懂不懂 CTI 知識」、ExCyTIn-Bench 則把場景推到 investigation workflow,那 CTI-REALM 更進一步處理的是另一個藍隊核心工作:模型到底能不能根據威脅情報,真的做出可用的 detection rule?
這篇論文的價值很直接。它不再滿足於問模型:「這是哪個 ATT&CK technique?」「這段威脅描述在講什麼?」而是把 agent 放進一個更像 detection engineer 的環境裡,要求它:
- 先讀 CTI report
- 理解威脅脈絡與 TTP
- 知道該查哪些 telemetry sources
- 實際寫查詢、反覆修正
- 最後產出 Sigma rule 與 KQL detection
也就是說,這篇論文真正評估的不是「security 問答」,而是端到端 detection engineering 能力。
這篇論文要補哪個空缺?
作者指出,現有資安 benchmark 雖然越來越多,但大多仍偏向幾種任務:
- parametric knowledge 測試
- 單一步驟 rule synthesis
- TTP classification / attribution / QA
- 靜態 benchmark score 比較
問題是,真實 detection engineering 根本不是這樣。分析師平常做的是:
- 看 threat report 提煉攻擊重點
- 把 TTP 轉成 log 觀測點
- 理解不同資料表的 schema
- 試 query、看結果、再修 query
- 最後才把 detection logic 固化為規則
所以作者要回答的其實是:
如果我們真的想知道 AI agent 能不能協助 detection engineering,就不能只測它會不會背知識;我們得測它能不能走完整個 workflow。
CTI-REALM 正是為了這個空缺而設計。
CTI-REALM 是什麼?
CTI-REALM 全名是 Cyber Threat Real World Evaluation and LLM Benchmarking。它是一個專門評估 AI agents 在 detection rule generation 上表現的 benchmark。
從任務定義來看,agent 的輸入與輸出非常清楚:
- 輸入:來自公開 threat research / detection references 的 CTI 報告,以及攻擊模擬產生的 telemetry logs
- 輸出:能偵測該威脅行為的 Sigma 規則 與 KQL 查詢
- 限制:agent 只能用容器環境內提供的工具,不能外連亂查,也不能改 telemetry
這個設計很重要。因為它把 agent 放到一個可控、可重現、可驗證的安全工作環境裡,而不是讓模型隨便憑印象回答。
資料怎麼來?不是玩具資料
論文的 benchmark 建立在真實攻擊模擬與真實遙測資料之上。作者從 37 份公開 CTI 報告與 detection references 出發,來源包括:
- Microsoft Security
- Datadog Security Labs
- Palo Alto Networks
- Splunk Security Content
然後在隔離的 Azure sandbox 裡重現攻擊,收集遙測,再把資料清洗與匿名化後放入評測環境。
這些模擬跨越三種平台:
- Linux endpoints
- Azure Kubernetes Service (AKS)
- Azure cloud infrastructure
難度也分層:
- easy:atomic single-step attacks
- medium:multi-step sequences
- hard:需要跨資料源關聯的複合 attack chains
作者最後做出兩個版本:
- CTI-REALM-25:25 個任務,適合快速迭代
- CTI-REALM-50:50 個任務,評估面更完整
其中 CTI-REALM-50 的組成是:
- 25 個 Linux 任務
- 17 個 AKS 任務
- 8 個 Cloud 任務
這代表它不是單純偏向 endpoint log,也不是只做某一種 SIEM query demo,而是有意識地把 detection engineering 裡最麻煩的 heterogeneity 帶進來。
環境設計:為什麼這篇 benchmark 比一般 security QA 更有意義?
CTI-REALM 的關鍵,不只是資料來源真,而是環境設計很像真的 detection engineer workspace。
論文裡的 containerized environment 包含幾個核心元件:
- CTI repository:37 份原始 threat reports
- Kusto cluster:可執行 KQL 查詢
- telemetry logs:多來源安全日誌
- MITRE ATT&CK database:做 threat context mapping
- Sigma rules database:作為既有規則參考
日誌來源也很完整,涵蓋:
- endpoint telemetry(如 device process / file events)
- AKS audit logs
- Azure activity 與 diagnostics
- identity / authentication logs
- application-layer logs
換句話說,agent 面對的不是一張乾淨的小表,而是一個接近真實藍隊工作檯的資料平面。這讓 benchmark 真正能測到:
- 會不會讀報告
- 會不會找 ATT&CK 對應
- 會不會找對 log source
- 會不會寫查詢
- 會不會把 query 結果轉成 detection rule
八個專用工具:這其實是在測 agent,而不是單一 LLM
作者讓 agent 透過結構化 API 與環境互動,總共提供 八個 specialized tools。論文主文沒有逐一展開所有細節,但從功能描述可以看出,這些工具涵蓋:
- CTI report retrieval
- threat context / technique mapping
- schema exploration
- query execution
- rule development 所需的資訊查找
這點很值得注意。因為 CTI-REALM 的問題意識不是「單一模型本體多強」,而是:當模型變成一個可以調工具、查資料、逐步推進任務的 agent 時,它整體能完成多少 detection engineering 工作?
這也是為什麼它比單純 prompt-to-rule 的工作更實際。
最值得記住的設計:trajectory-based reward
CTI-REALM 最漂亮的地方之一,是它不是只看最後規則有沒有答對,而是把整個 detection engineering workflow 拆成多個 checkpoint。
作者把任務建模成一個 sequential decision-making problem,並用 MDP 形式描述,總 reward 為:
R_total = Σ (w_i × r_i)
其中 checkpoint 分成五段:
- C0 – CTI Report Analysis:有沒有找對、理解對 threat report
- C1 – Threat Context:有沒有正確抓出 MITRE ATT&CK techniques
- C2 – Data Exploration:有沒有找到正確 telemetry sources
- C3 – Query Execution:有沒有真的反覆查詢與修正
- C4 – Detection Quality:最後 KQL 與 Sigma 規則品質如何
權重設計也很有意思:
- C0:0.125
- C1:0.075
- C2:0.10
- C3:0.05
- C4:0.65
也就是說,作者承認中間步驟很重要,但最終仍然把真正可用的 detection quality 放在最重的位置。
這個設計比很多 benchmark 成熟,因為它避免兩種極端:
- 只看 final answer,忽略 agent 過程品質
- 只看過程是否熱鬧,最後卻產不出像樣規則
評分方法:deterministic + LLM-as-judge 混搭
論文的評估框架同時使用 deterministic 與 non-deterministic 方式。
比較硬的部分,用較可重現的指標衡量:
- tool usage verification
- Jaccard similarity(比對 techniques 與 data sources)
- regex / F1-score(檢查 KQL 命中品質)
比較主觀或語意面的部分,則交給 GPT-5-Mini 作為 LLM-as-a-judge,例如:
- report relevance
- Sigma rule quality
這種混搭其實很務實。因為 detection engineering 不是所有面向都能只靠 exact-match 解決,但若全部交給 LLM judge 又容易失控。作者在這裡做的是一個工程上相對平衡的折衷。
實驗設定:作者測了哪些模型?
作者總共測了 16 個 frontier model configurations,包括:
- Anthropic Claude 系列(Opus 4.6 High、Opus 4.5、Sonnet 4.5)
- OpenAI GPT-5 / 5.1 / 5.2 不同 reasoning effort 設定
- GPT-5-Mini
- GPT-4.1
- O3、O4-Mini 等 reasoning-oriented models
agent 架構則固定使用 ReAct,每個任務上限 70 messages。這樣做的目的,是盡量把差異集中在 model capability,而不是 agent harness 寫法不同。
主要結果:最強也沒有強到讓人放心
這篇論文最值得認真看的不是哪家模型第一,而是:即使是目前最強的一批模型,在完整 detection engineering workflow 上也還遠遠不到輕鬆過關。
整體結果裡,最佳模型是:
- Claude Opus 4.6 (High):0.637
- Claude Opus 4.5:0.624
- Claude Sonnet 4.5:0.587
- GPT-5 (Med):0.572
- GPT-5.2 (Med):0.572
從數字看,最高分 0.637 其實已經不低,但問題在於:這是經過工具輔助、完整工作流設計後的最強表現,而且仍然顯示很多任務做不到穩定完成。
更關鍵的是平台差異:
- Linux 任務平均:0.585
- AKS 任務平均:0.517
- Cloud 任務平均:0.282
Cloud 類型的成績幾乎腰斬,這揭露了真正困難的地方:跨資料源、跨身份、跨服務的關聯式 detection,仍然是當前 agent 最脆弱的部分。
一個很有意思的發現:medium reasoning 比 high 更好
論文的一個亮點,是它不是只比較模型,還比較 reasoning effort。
作者發現,在 GPT-5 家族裡,medium reasoning effort consistently outperform high reasoning。也就是說:
- 不是想得越久就越好
- 太高的 reasoning budget 可能反而造成 overthinking
- 在 agentic security workflow 中,過度思考有時會拖慢或偏離有效 query strategy
這一點和很多人對 reasoning model 的直覺相反,但其實很合理。Detection engineering 不是純數學證明,也不是單題 coding;它需要的是持續前進、逐步修正、工具互動效率。在這種任務裡,過度展開 chain-of-thought 不一定轉化成更好的行動。
Checkpoint analysis:Claude 為什麼贏?
從論文的 checkpoint 分析來看,Claude 類模型領先的原因主要不是單一知識點,而是整體 agent workflow 表現更強,尤其是:
- C0 – CTI report analysis
- C3 – query execution
其中 C3 最能拉開差距。作者指出 Claude 在 query execution 的 normalized reward 可達 0.86–0.92,而多數 OpenAI 模型低於 0.50,GPT-4.1 甚至只有 0.02。
這說明了一件很重要的事:在 detection engineering 這種任務裡,真正的差距常常不是知道 ATT&CK,而是會不會把知識轉成有效查詢與連續探索。
Ablation study:CTI-specific tools 真的有用嗎?
作者很負責任地做了一組 ablation:把 CTI-specific tools 拿掉,看模型會不會只是靠內建知識硬撐。
結果是所有模型都退步,而且退得不小:
- Claude Opus 4.5:-0.150
- GPT-5 (Med):-0.134
- GPT-5.1 (Med):-0.117
- Claude Opus 4.6 (High):-0.077
這表示 benchmark 不是在測誰背得多,而是真正測到 tool augmentation 的效果。尤其作者指出,當拿掉 CTI tools 後,最終 detection quality(C4)普遍下降,代表 CTI context 對產出高品質偵測規則是必要的。
Memory augmentation:小模型能不能補一點回來?
另一個很值得看的實驗,是 memory augmentation。作者給 GPT-5-Mini 一組人工整理過的 detection engineering guidance,包括:
- workflow guidance
- tool usage tips
- Sigma / KQL pattern templates
結果從 0.371 提升到 0.432,也就是補回了 GPT-5 (Med) 與 GPT-5-Mini 之間大約 33% 的差距。
這個發現很實務。它表示在安全 agent 系統裡,不是只有換更大模型一條路。如果把 workflow、query patterns、debugging heuristics 寫成可檢索的 operational memory,小模型也能明顯進步。
但作者也指出,memory 主要補的是知識型 checkpoint,例如 MITRE mapping;真正難補的還是 query construction。這再次說明:安全 agent 的核心瓶頸,依然是行動式推理,而不只是知識缺口。
如果用教授做筆記的方式,這篇 paper 要抓哪幾點?
- 這篇 paper 的核心任務不是一般 CTI QA,而是 end-to-end detection engineering。
- benchmark 建立在真實 attack emulation 與 Azure telemetry 上,不是純合成題。
- 任務要求 agent 從 CTI report 出發,最終產出 Sigma + KQL 規則。
- 評估框架不是單一 final score,而是拆成 C0–C4 五個 checkpoints。
- 作者把 detection engineering 視為 sequential decision-making problem,這使它天然適合 RL 與 agent training。
- 實驗結果顯示 Claude 系列目前在這條工作流上更強,尤其在 query execution。
- Cloud 類任務最難,說明跨來源關聯仍是當前 agent 的重大瓶頸。
- CTI tools 與 seeded memory 都有明顯價值,但無法完全取代模型本身的 query 能力。
這篇論文的價值在哪裡?
我認為 CTI-REALM 的價值主要有三層。
第一,它把 detection engineering 正式變成可衡量的 agent benchmark
這很重要,因為在這之前,很多「AI for SOC」論文仍停在 rule generation demo 或零碎 task benchmark,沒有真正把 analyst workflow 收斂成可重現評測。
第二,它提醒我們:真正的安全 agent 不只是知識模型
會背 ATT&CK、會講威脅報告,和會做 detection engineering 是兩回事。真正困難的是把 threat context 轉成 log thinking,再轉成 query,再轉成 rule。
第三,它提供了很適合未來 RL / memory / tool augmentation 研究的框架
因為有 checkpoint rewards、有結構化工具、有真實資料平面,所以 CTI-REALM 不只是 benchmark,也很像下一代 security agent 訓練場。
限制與保留
當然,這篇論文也有幾個要一起看的限制:
- Azure-centric:主要是 Azure telemetry 與 KQL,未必直接外推到 AWS / GCP / Splunk / Elastic
- 還不是完整 SOC:沒有涵蓋大規模 production volume、長期 anomaly baseline 等現場因素
- agent architecture 固定:目前主要用 ReAct,未充分比較更多 orchestration 策略
- LLM-as-judge 仍有主觀性:雖然作者有人工驗證,但終究不是完全 deterministic
不過整體來說,這些限制沒有削弱它的主價值,反而只是提醒我們:這是很像真實世界的第一代框架,不是最終版本。
總結
CTI-REALM 是一篇非常值得放進近年 CTI / AI / Agent benchmark 主線的論文,因為它抓到了一個真正重要、也真正困難的問題:AI agent 能不能根據 threat intelligence 做出可執行、可驗證、可落地的 detection rules?
它最值得記住的幾點是:
- 不是只測安全知識,而是測 end-to-end detection engineering workflow
- 建立在真實 attack emulation、真實 telemetry 與真實查詢環境上
- 用 checkpoint rewards 拆解 agent 的中間能力與最終規則品質
- 目前最強模型也仍有明顯限制,尤其在 cloud correlation 與 query refinement
- tool augmentation 與 memory augmentation 都有價值,但無法完全取代核心 agent capability
如果 ExCyTIn-Bench 在問的是「agent 能不能辦案」,那 CTI-REALM 問的就是:「agent 辦完案之後,能不能把理解真正轉成偵測能力?」對藍隊實務來說,這一步甚至更關鍵。因為能回答問題很有用,但能寫出可靠 detection,才是真的開始進入防禦體系。
免責聲明
本文由 AI 產生、整理與撰寫,內容主要依據公開論文、技術文件與可取得之研究資料進行彙整、解讀與摘要。儘管已盡力確保內容之完整性與可讀性,仍可能因模型理解限制、資料來源差異或語意轉譯過程而存在疏漏、不精確或更新延遲之處。本文內容僅供研究交流與知識分享參考,實際技術細節、實驗設定與最終結論,仍應以原始論文、官方文件及作者公開資料為準。
