AttackSeqBench 論文閱讀分析:LLM 真的看得懂多步驟攻擊序列嗎?

論文基本資訊

  • 論文標題:AttackSeqBench: Benchmarking the Capabilities of LLMs for Attack Sequences Understanding
  • 作者:Haokai Ma、Javier Yong、Yunshan Ma、Kuei Chen、Anis Yusof、Zhenkai Liang、Ee-Chien Chang
  • 年份:2026(arXiv v3)
  • 來源:arXiv:2503.03170
  • 論文連結:https://arxiv.org/abs/2503.03170
  • 主題:CTI、LLM Benchmark、Attack Sequence Understanding、MITRE ATT&CK、Reasoning、RAG、Threat Intelligence

如果前一波 CTI benchmark 論文像 CTIBenchCTIArenaAthenaBench 主要在問「模型懂不懂 CTI 知識、會不會做 attribution、能不能做 mitigation recommendation」,那 AttackSeqBench 把問題再往前推一步:模型到底能不能看懂一整條攻擊序列,而不是只回答單一知識點?

這篇論文很值得讀,因為它抓到一個很多安全 AI demo 常被忽略的痛點:真實世界的 CTI 報告,不是幾個獨立的 IOC,也不是一題一答的 fact lookup。它描述的是多階段、多步驟、跨 tactic 與 technique 的攻擊流程。如果模型只能辨識單點資訊,卻無法理解行為之間的先後、依賴與推進關係,那它在實戰裡就很難真的幫 analyst 推理後續威脅。

這篇論文想解決什麼?

作者把目標講得很清楚:現有 CTI report understanding 研究,多半著重在 threat entity extraction、knowledge graph construction、單點 attribution 或一般知識問答;但對於攻擊序列(attack sequence)本身的理解與推理能力,研究仍然不足。

而這件事之所以重要,是因為真實攻擊很少只有一步。APT 或多階段入侵通常會經過:

  • 初始入侵
  • payload 投遞與執行
  • 橫向移動或控制通道建立
  • 持續化、資料竊取或最終行動

也就是說,防守方真正需要理解的,不只是「這裡出現了某個 malware / IP / technique」,而是:

這些 TTP 是怎麼串起來的?哪一步先、哪一步後?哪個 tactic 支撐哪個 technique?某個 procedure 是否符合既有 sequence?

AttackSeqBench 的核心價值,就在於它把這種 sequence-level reasoning 正式拉進 benchmark。

AttackSeqBench 的三個設計目標

作者沒有只做一份題庫,而是先定義這個 benchmark 應該滿足什麼條件。論文提出三個關鍵要求:

  1. Extensibility:能持續吸收新的 CTI 報告與新攻擊序列
  2. Reasoning Scalability:可檢驗一般 LLM 與 Large Reasoning Models(LRMs)在這類任務上的差異
  3. Domain-Specific Epistemic Expandability:可測試加入資安知識、context 或 RAG 後,模型是否真的變得更會推理

這三點其實比表面上更重要。因為這篇論文不是只想證明某個模型高分,而是想回答更根本的問題:如果攻擊序列理解真的是一種特殊而高階的 CTI 能力,那我們要如何持續、系統化、可比較地評估它?

作者怎麼定義 attack sequence?

這篇 paper 有一個很關鍵的形式化定義。作者把 attack sequence 寫成四元組:

S = (T, E, P, O)
  • T:tactic sequence,也就是依序排列的 ATT&CK tactics
  • E:每個 tactic 對應的 techniques / sub-techniques
  • P:每個 technique 對應的 procedures,表示成 (subject, action, object) triplets
  • O:依 tactic 順序整理出的 CTI outline 文字摘要

這個定義很有價值,因為它把原本鬆散、冗長的 CTI 報告,轉成一個可以對應tactic → technique → procedure 階層的結構化表示。也因此,後面的 benchmark task 才能不是只問 fact,而是問 sequence 與 alignment。

資料集怎麼來?不是人工手工慢慢標而已

AttackSeqBench 的資料建構流程相當完整。作者先蒐集 408 份真實 CTI reports,來源涵蓋多家 security vendor,接著利用既有的 LLM-based CTI knowledge graph construction framework,從報告中抽出多層 TTP、生成 CTI outline,再組成 attack sequence。

值得注意的是,作者還特別排除了只包含少於兩個 tactics 的 outline,因為那種樣本通常不足以代表真正的多步驟攻擊模式。這表示他們不是只追求數量,而是希望 sequence 真的有 sequence 的樣子。

三種任務:這個 benchmark 到底在測什麼?

AttackSeqBench 圍繞 MITRE ATT&CK 的行為層次,設計了三個 task:

1. AttackSeqBench-Tactic

給定攻擊脈絡,要求模型推斷對應的 tactic。這是在測模型能不能從 sequence 脈絡中辨識高層目的與階段,而不是只認字面關鍵詞。

2. AttackSeqBench-Technique

再往下一層,要求模型判斷正確的 technique / sub-technique。這一層比 tactic 更細,也更接近 analyst 日常 mapping 工作。

3. AttackSeqBench-Procedure

這一層最有意思。它改成 yes/no 問題,檢查某個 procedure 是否符合給定的 attack sequence。換句話說,這不是在背 ATT&CK 表格,而是在測模型能不能判斷某段程序敘述是否真的和該 sequence 的邏輯一致

這三個 task 加起來,剛好對應:

  • 高層戰術理解
  • 中層技術映射
  • 低層程序一致性判斷

這比很多單點 benchmark 更接近真實 CTI 分析工作。

資料品質控制:這篇做得比很多 benchmark 細

作者不是讓 GPT 直接吐題就收工。整體 Q&A pipeline 至少包含:

  • answer-aware question generation
  • few-shot prompt 強化題目相關性
  • 多選題 distractor 的規則化設計
  • yes/no negative sample 的轉換策略
  • 依據多項 criteria 的 iterative self-refine

作者用六個面向去評估與修題,包括:

  • Clarity
  • Answerability
  • Relevance
  • Consistency
  • Answer Consistency
  • Logic

而且不是只靠自動分數。論文還做了 human evaluation:每個子任務抽樣給三位資安專家評估。結果顯示題目整體具有不錯的可理解度與對 sequence 的對齊性,但人類正確率平均約 0.63,代表這不是那種一眼就能答的簡單題。

這點很重要:一個像樣的 CTI benchmark,不應該只是讓模型刷高分,而要先確保題目真的難、真的合理、真的貼近 analyst 會碰到的 sequence reasoning。

三種評測設定:不是只有 zero-shot

AttackSeqBench 另一個亮點,是作者沒有把評測侷限在 zero-shot,而是設計三種設定:

1. Zero-Shot

只靠模型內部知識答題。這是 baseline,也是最直接的能力測試。

2. Context Setting

提供部分 CTI outline,但會拿掉對應正解的那段文字,逼模型用剩餘 sequence 做 abductive reasoning。這個設計很巧,因為它不是直接餵答案,而是測模型能不能靠前後脈絡補全缺失行為。

3. RAG-Empowered Setting

加入檢索輔助,希望模型利用外部知識改善對 CTI sequence 的理解。這也是很多人對安全 AI 最自然的期待:內建知識不夠,那接 RAG 應該會更強吧?

而這篇論文最有價值的一點,就是它真的把這個期待拿去驗證,而不是直接假設成立。

評測了哪些模型?

作者評估了:

  • 7 個 LLMs:如 Qwen2.5-3B/14B/32B、Llama3.1-8B、Llama3.3-70B、ChatGLM4-9B、GPT-4o
  • 5 個 LRMs:如 DeepSeek-R1 系列、QwQ-32B、GPT-o3-mini
  • 4 種 post-training 策略:SFT、RD、RLIF、RLVR

這樣的設計讓論文不只是比較模型大小,還能比較三件事:

  • 一般 LLM 與 reasoning model 的差異
  • 是否加入額外資安知識真的有效
  • RAG / context 到底有沒有想像中萬能

主要結果一:大模型確實較強,但不是全面穩贏

從表格結果來看,參數較大的模型通常表現比較好,像 Qwen2.5-32B、Llama3.3-70B、GPT-4o 整體都比小模型強,這並不意外。

但這篇論文真正有意思的地方,不在於「大模型比較強」這種老結論,而在於:

  • 不同 task 的差距很大
  • context setting 常常比 zero-shot 有幫助
  • RAG setting 卻經常沒有想像中好,甚至會變差

例如部分模型在 procedure 與 technique 任務的 context setting 會明顯提升,但 RAG 設定反而未必能穩定增分。這代表對 attack sequence 這類任務來說,問題不只是缺知識,而是如何讓檢索到的知識和序列語意正確對齊

主要結果二:LRMs 沒有展現大家期待中的壓倒性優勢

這可能是全文最值得畫線的一個發現。作者明確指出:現有 Large Reasoning Models 在 attack sequence analysis 上,並沒有像在數學、程式或一般推理任務中那樣明顯勝出,甚至很多情況下還更差。

這個結論很重要,因為它幾乎是在對整個「只要 reasoning 更強,就自然會更懂安全分析」的想像踩煞車。

原因可能在於:

  • attack sequence reasoning 不是純形式推理
  • 它高度依賴 domain semantics 與 CTI 專業知識
  • 推理鍊再長,若對 ATT&CK / TTP 關係理解不足,一樣會錯

換句話說,這類任務的瓶頸可能不在「會不會想」,而在「有沒有正確而細緻的安全知識結構可供思考」

主要結果三:RAG 不是萬靈丹

這篇論文另一個很值得安全從業者重視的地方,是它直接展示了 RAG 的限制。作者發現,在 AttackSeqBench 上,RAG 設定常常沒有穩定提升,某些情況還會比 context 或 zero-shot 更差。

這代表在 sequence-heavy 的 CTI 任務裡,RAG 可能會遇到幾個問題:

  • 檢索內容雖相關,卻沒有對應正確的 sequence 階段
  • 檢索片段破壞了原本的時序與結構理解
  • 模型被額外知識干擾,反而無法聚焦當前 attack path

這對現在很多「CTI Copilot + RAG」型架構是一個很好的提醒:把資料塞進去,不等於就會更懂 sequence。 如果 retrieval 本身不懂 attack structure,最後只會把模型往更多表面相關資訊裡推。

AttackSeqBench 為什麼值得看?

我認為這篇論文至少有四層價值:

  1. 它把 CTI benchmark 從單點知識問答推進到 sequence reasoning
  2. 它證明了 attack sequence understanding 是一個和一般 benchmark 不一樣的難題
  3. 它給了「LRM 是否真能幫安全分析」一個沒那麼樂觀、但很有參考價值的答案
  4. 它提醒我們:RAG 與外部知識注入若沒有結構感,未必能改善 CTI 推理

對 sectools.tw 近期這條 benchmark 脈絡來說,AttackSeqBench 的位置很清楚:

  • CTIBench 較像打基礎,把 CTI 任務拆出來評測
  • CTIArena 擴大異質題型與推理檢驗
  • AthenaBench 強調動態更新與實務導向任務
  • AttackSeqBench 則把焦點壓到 multi-step attack understanding 本身

也因此,它不是重複前面幾篇,而是把 benchmark 主線推向更接近真實 attack-chain analysis 的地方。

論文限制

當然,這篇也不是沒有侷限:

  • 資料建構仍大量依賴 LLM pipeline,雖然有 refinement 與人評,但仍可能帶入生成偏差
  • benchmark 主要仍是問答形式,和真實 analyst workflow 還有距離
  • sequence 理解被映射到 ATT&CK 結構,這很實用,但也會限制對 ATT&CK 之外行為語意的表達
  • RAG 設定的失敗雖然重要,但也可能部分來自實作細節,未必代表所有 sequence-aware RAG 都不行

不過這些限制反而讓這篇論文更有研究價值,因為它清楚指出了下一步該補什麼:更懂 sequence 的 retrieval、更強的 domain adaptation、以及更接近 analyst workbench 的長流程 benchmark。

總結

AttackSeqBench 是一篇相當關鍵的 CTI benchmark 論文,因為它把問題從「模型懂不懂資安知識」往前推進成「模型能不能看懂攻擊是如何一步一步展開的」。

它傳遞出的訊息很清楚:

  • CTI 不是只有單點 fact extraction
  • attack sequence understanding 是更高階、也更接近實務的能力
  • 大模型雖然較強,但 sequence reasoning 依然不穩
  • LRM 在這類任務上沒有展現想像中的壓倒性優勢
  • RAG 如果沒有結構感,未必幫得上忙

如果你正在做 threat hunting copilot、CTI analyst assistant、attack graph reasoning,或任何號稱能理解多步驟攻擊流程的安全 AI 系統,AttackSeqBench 很值得拿來當參照。因為它真正問的不是模型會不會講,而是:

當攻擊不再是單一事件,而是一整條需要理解順序、依賴與語意關係的行為鏈時,模型到底還剩多少可靠能力?

免責聲明

本文由 AI 產生、整理與撰寫,內容主要依據公開論文、技術文件與可取得之研究資料進行彙整、解讀與摘要。儘管已盡力確保內容之完整性與可讀性,仍可能因模型理解限制、資料來源差異或語意轉譯過程而存在疏漏、不精確或更新延遲之處。本文內容僅供研究交流與知識分享參考,實際技術細節、實驗設定與最終結論,仍應以原始論文、官方文件及作者公開資料為準。

You may also like