AttackSeqBench 論文閱讀分析：LLM 真的看得懂多步驟攻擊序列嗎？

2026 年 4 月 7 日

論文基本資訊

論文標題：AttackSeqBench: Benchmarking the Capabilities of LLMs for Attack Sequences Understanding
作者：Haokai Ma、Javier Yong、Yunshan Ma、Kuei Chen、Anis Yusof、Zhenkai Liang、Ee-Chien Chang
年份：2026（arXiv v3）
來源：arXiv:2503.03170
論文連結：https://arxiv.org/abs/2503.03170
主題：CTI、LLM Benchmark、Attack Sequence Understanding、MITRE ATT&CK、Reasoning、RAG、Threat Intelligence

如果前一波 CTI benchmark 論文像 CTIBench、CTIArena、AthenaBench 主要在問「模型懂不懂 CTI 知識、會不會做 attribution、能不能做 mitigation recommendation」，那 AttackSeqBench 把問題再往前推一步：模型到底能不能看懂一整條攻擊序列，而不是只回答單一知識點？

這篇論文很值得讀，因為它抓到一個很多安全 AI demo 常被忽略的痛點：真實世界的 CTI 報告，不是幾個獨立的 IOC，也不是一題一答的 fact lookup。它描述的是多階段、多步驟、跨 tactic 與 technique 的攻擊流程。如果模型只能辨識單點資訊，卻無法理解行為之間的先後、依賴與推進關係，那它在實戰裡就很難真的幫 analyst 推理後續威脅。

這篇論文想解決什麼？

作者把目標講得很清楚：現有 CTI report understanding 研究，多半著重在 threat entity extraction、knowledge graph construction、單點 attribution 或一般知識問答；但對於攻擊序列（attack sequence）本身的理解與推理能力，研究仍然不足。

而這件事之所以重要，是因為真實攻擊很少只有一步。APT 或多階段入侵通常會經過：

初始入侵
payload 投遞與執行
橫向移動或控制通道建立
持續化、資料竊取或最終行動

也就是說，防守方真正需要理解的，不只是「這裡出現了某個 malware / IP / technique」，而是：

這些 TTP 是怎麼串起來的？哪一步先、哪一步後？哪個 tactic 支撐哪個 technique？某個 procedure 是否符合既有 sequence？

AttackSeqBench 的核心價值，就在於它把這種 sequence-level reasoning 正式拉進 benchmark。

AttackSeqBench 的三個設計目標

作者沒有只做一份題庫，而是先定義這個 benchmark 應該滿足什麼條件。論文提出三個關鍵要求：

Extensibility：能持續吸收新的 CTI 報告與新攻擊序列
Reasoning Scalability：可檢驗一般 LLM 與 Large Reasoning Models（LRMs）在這類任務上的差異
Domain-Specific Epistemic Expandability：可測試加入資安知識、context 或 RAG 後，模型是否真的變得更會推理

這三點其實比表面上更重要。因為這篇論文不是只想證明某個模型高分，而是想回答更根本的問題：如果攻擊序列理解真的是一種特殊而高階的 CTI 能力，那我們要如何持續、系統化、可比較地評估它？

作者怎麼定義 attack sequence？

這篇 paper 有一個很關鍵的形式化定義。作者把 attack sequence 寫成四元組：

S = (T, E, P, O)

T：tactic sequence，也就是依序排列的 ATT&CK tactics
E：每個 tactic 對應的 techniques / sub-techniques
P：每個 technique 對應的 procedures，表示成 (subject, action, object) triplets
O：依 tactic 順序整理出的 CTI outline 文字摘要

這個定義很有價值，因為它把原本鬆散、冗長的 CTI 報告，轉成一個可以對應tactic → technique → procedure 階層的結構化表示。也因此，後面的 benchmark task 才能不是只問 fact，而是問 sequence 與 alignment。

資料集怎麼來？不是人工手工慢慢標而已

AttackSeqBench 的資料建構流程相當完整。作者先蒐集 408 份真實 CTI reports，來源涵蓋多家 security vendor，接著利用既有的 LLM-based CTI knowledge graph construction framework，從報告中抽出多層 TTP、生成 CTI outline，再組成 attack sequence。

值得注意的是，作者還特別排除了只包含少於兩個 tactics 的 outline，因為那種樣本通常不足以代表真正的多步驟攻擊模式。這表示他們不是只追求數量，而是希望 sequence 真的有 sequence 的樣子。

三種任務：這個 benchmark 到底在測什麼？

AttackSeqBench 圍繞 MITRE ATT&CK 的行為層次，設計了三個 task：

1. AttackSeqBench-Tactic

給定攻擊脈絡，要求模型推斷對應的 tactic。這是在測模型能不能從 sequence 脈絡中辨識高層目的與階段，而不是只認字面關鍵詞。

2. AttackSeqBench-Technique

再往下一層，要求模型判斷正確的 technique / sub-technique。這一層比 tactic 更細，也更接近 analyst 日常 mapping 工作。

3. AttackSeqBench-Procedure

這一層最有意思。它改成 yes/no 問題，檢查某個 procedure 是否符合給定的 attack sequence。換句話說，這不是在背 ATT&CK 表格，而是在測模型能不能判斷某段程序敘述是否真的和該 sequence 的邏輯一致。

這三個 task 加起來，剛好對應：

高層戰術理解
中層技術映射
低層程序一致性判斷

這比很多單點 benchmark 更接近真實 CTI 分析工作。

資料品質控制：這篇做得比很多 benchmark 細

作者不是讓 GPT 直接吐題就收工。整體 Q&A pipeline 至少包含：

answer-aware question generation
few-shot prompt 強化題目相關性
多選題 distractor 的規則化設計
yes/no negative sample 的轉換策略
依據多項 criteria 的 iterative self-refine

作者用六個面向去評估與修題，包括：

Clarity
Answerability
Relevance
Consistency
Answer Consistency
Logic

而且不是只靠自動分數。論文還做了 human evaluation：每個子任務抽樣給三位資安專家評估。結果顯示題目整體具有不錯的可理解度與對 sequence 的對齊性，但人類正確率平均約 0.63，代表這不是那種一眼就能答的簡單題。

這點很重要：一個像樣的 CTI benchmark，不應該只是讓模型刷高分，而要先確保題目真的難、真的合理、真的貼近 analyst 會碰到的 sequence reasoning。

三種評測設定：不是只有 zero-shot

AttackSeqBench 另一個亮點，是作者沒有把評測侷限在 zero-shot，而是設計三種設定：

1. Zero-Shot

只靠模型內部知識答題。這是 baseline，也是最直接的能力測試。

2. Context Setting

提供部分 CTI outline，但會拿掉對應正解的那段文字，逼模型用剩餘 sequence 做 abductive reasoning。這個設計很巧，因為它不是直接餵答案，而是測模型能不能靠前後脈絡補全缺失行為。

3. RAG-Empowered Setting

加入檢索輔助，希望模型利用外部知識改善對 CTI sequence 的理解。這也是很多人對安全 AI 最自然的期待：內建知識不夠，那接 RAG 應該會更強吧？

而這篇論文最有價值的一點，就是它真的把這個期待拿去驗證，而不是直接假設成立。

評測了哪些模型？

作者評估了：

7 個 LLMs：如 Qwen2.5-3B/14B/32B、Llama3.1-8B、Llama3.3-70B、ChatGLM4-9B、GPT-4o
5 個 LRMs：如 DeepSeek-R1 系列、QwQ-32B、GPT-o3-mini
4 種 post-training 策略：SFT、RD、RLIF、RLVR

這樣的設計讓論文不只是比較模型大小，還能比較三件事：

一般 LLM 與 reasoning model 的差異
是否加入額外資安知識真的有效
RAG / context 到底有沒有想像中萬能

主要結果一：大模型確實較強，但不是全面穩贏

從表格結果來看，參數較大的模型通常表現比較好，像 Qwen2.5-32B、Llama3.3-70B、GPT-4o 整體都比小模型強，這並不意外。

但這篇論文真正有意思的地方，不在於「大模型比較強」這種老結論，而在於：

不同 task 的差距很大
context setting 常常比 zero-shot 有幫助
RAG setting 卻經常沒有想像中好，甚至會變差

例如部分模型在 procedure 與 technique 任務的 context setting 會明顯提升，但 RAG 設定反而未必能穩定增分。這代表對 attack sequence 這類任務來說，問題不只是缺知識，而是如何讓檢索到的知識和序列語意正確對齊。

主要結果二：LRMs 沒有展現大家期待中的壓倒性優勢

這可能是全文最值得畫線的一個發現。作者明確指出：現有 Large Reasoning Models 在 attack sequence analysis 上，並沒有像在數學、程式或一般推理任務中那樣明顯勝出，甚至很多情況下還更差。

這個結論很重要，因為它幾乎是在對整個「只要 reasoning 更強，就自然會更懂安全分析」的想像踩煞車。

原因可能在於：

attack sequence reasoning 不是純形式推理
它高度依賴 domain semantics 與 CTI 專業知識
推理鍊再長，若對 ATT&CK / TTP 關係理解不足，一樣會錯

換句話說，這類任務的瓶頸可能不在「會不會想」，而在「有沒有正確而細緻的安全知識結構可供思考」。

主要結果三：RAG 不是萬靈丹

這篇論文另一個很值得安全從業者重視的地方，是它直接展示了 RAG 的限制。作者發現，在 AttackSeqBench 上，RAG 設定常常沒有穩定提升，某些情況還會比 context 或 zero-shot 更差。

這代表在 sequence-heavy 的 CTI 任務裡，RAG 可能會遇到幾個問題：

檢索內容雖相關，卻沒有對應正確的 sequence 階段
檢索片段破壞了原本的時序與結構理解
模型被額外知識干擾，反而無法聚焦當前 attack path

這對現在很多「CTI Copilot + RAG」型架構是一個很好的提醒：把資料塞進去，不等於就會更懂 sequence。 如果 retrieval 本身不懂 attack structure，最後只會把模型往更多表面相關資訊裡推。

AttackSeqBench 為什麼值得看？

我認為這篇論文至少有四層價值：

它把 CTI benchmark 從單點知識問答推進到 sequence reasoning。
它證明了 attack sequence understanding 是一個和一般 benchmark 不一樣的難題。
它給了「LRM 是否真能幫安全分析」一個沒那麼樂觀、但很有參考價值的答案。
它提醒我們：RAG 與外部知識注入若沒有結構感，未必能改善 CTI 推理。

對 sectools.tw 近期這條 benchmark 脈絡來說，AttackSeqBench 的位置很清楚：

CTIBench 較像打基礎，把 CTI 任務拆出來評測
CTIArena 擴大異質題型與推理檢驗
AthenaBench 強調動態更新與實務導向任務
AttackSeqBench 則把焦點壓到 multi-step attack understanding 本身

也因此，它不是重複前面幾篇，而是把 benchmark 主線推向更接近真實 attack-chain analysis 的地方。

論文限制

當然，這篇也不是沒有侷限：

資料建構仍大量依賴 LLM pipeline，雖然有 refinement 與人評，但仍可能帶入生成偏差
benchmark 主要仍是問答形式，和真實 analyst workflow 還有距離
sequence 理解被映射到 ATT&CK 結構，這很實用，但也會限制對 ATT&CK 之外行為語意的表達
RAG 設定的失敗雖然重要，但也可能部分來自實作細節，未必代表所有 sequence-aware RAG 都不行

不過這些限制反而讓這篇論文更有研究價值，因為它清楚指出了下一步該補什麼：更懂 sequence 的 retrieval、更強的 domain adaptation、以及更接近 analyst workbench 的長流程 benchmark。

總結

AttackSeqBench 是一篇相當關鍵的 CTI benchmark 論文，因為它把問題從「模型懂不懂資安知識」往前推進成「模型能不能看懂攻擊是如何一步一步展開的」。

它傳遞出的訊息很清楚：

CTI 不是只有單點 fact extraction
attack sequence understanding 是更高階、也更接近實務的能力
大模型雖然較強，但 sequence reasoning 依然不穩
LRM 在這類任務上沒有展現想像中的壓倒性優勢
RAG 如果沒有結構感，未必幫得上忙

如果你正在做 threat hunting copilot、CTI analyst assistant、attack graph reasoning，或任何號稱能理解多步驟攻擊流程的安全 AI 系統，AttackSeqBench 很值得拿來當參照。因為它真正問的不是模型會不會講，而是：

當攻擊不再是單一事件，而是一整條需要理解順序、依賴與語意關係的行為鏈時，模型到底還剩多少可靠能力？

免責聲明

本文由 AI 產生、整理與撰寫，內容主要依據公開論文、技術文件與可取得之研究資料進行彙整、解讀與摘要。儘管已盡力確保內容之完整性與可讀性，仍可能因模型理解限制、資料來源差異或語意轉譯過程而存在疏漏、不精確或更新延遲之處。本文內容僅供研究交流與知識分享參考，實際技術細節、實驗設定與最終結論，仍應以原始論文、官方文件及作者公開資料為準。

AttackSeqBench 論文閱讀分析：LLM 真的看得懂多步驟攻擊序列嗎？

論文基本資訊

這篇論文想解決什麼？

AttackSeqBench 的三個設計目標

作者怎麼定義 attack sequence？

資料集怎麼來？不是人工手工慢慢標而已

三種任務：這個 benchmark 到底在測什麼？

1. AttackSeqBench-Tactic

2. AttackSeqBench-Technique

3. AttackSeqBench-Procedure

資料品質控制：這篇做得比很多 benchmark 細

三種評測設定：不是只有 zero-shot

1. Zero-Shot

2. Context Setting

3. RAG-Empowered Setting

評測了哪些模型？

主要結果一：大模型確實較強，但不是全面穩贏

主要結果二：LRMs 沒有展現大家期待中的壓倒性優勢

主要結果三：RAG 不是萬靈丹

AttackSeqBench 為什麼值得看？

論文限制

總結

免責聲明

發佈留言取消回覆

You may also like

近期文章

廣告

文章分類

近期留言

論文基本資訊

這篇論文想解決什麼？

AttackSeqBench 的三個設計目標

作者怎麼定義 attack sequence？

資料集怎麼來？不是人工手工慢慢標而已

三種任務：這個 benchmark 到底在測什麼？

1. AttackSeqBench-Tactic

2. AttackSeqBench-Technique

3. AttackSeqBench-Procedure

資料品質控制：這篇做得比很多 benchmark 細

三種評測設定：不是只有 zero-shot

1. Zero-Shot

2. Context Setting

3. RAG-Empowered Setting

評測了哪些模型？

主要結果一：大模型確實較強，但不是全面穩贏

主要結果二：LRMs 沒有展現大家期待中的壓倒性優勢

主要結果三：RAG 不是萬靈丹

AttackSeqBench 為什麼值得看？

論文限制

總結

免責聲明

發佈留言 取消回覆

You may also like

TechniqueRAG 論文閱讀分析：用 RAG 與大型語言模型標註 CTI 中的 ATT&CK 技術

RAGRank 論文閱讀分析：用 PageRank 抵禦 CTI LLM Pipeline 的資料投毒

近期文章

廣告

文章分類

近期留言

發佈留言取消回覆