AttackSeqBench 論文閱讀分析:LLM 真的看得懂多步驟攻擊序列嗎?
論文基本資訊
- 論文標題:AttackSeqBench: Benchmarking the Capabilities of LLMs for Attack Sequences Understanding
- 作者:Haokai Ma、Javier Yong、Yunshan Ma、Kuei Chen、Anis Yusof、Zhenkai Liang、Ee-Chien Chang
- 年份:2026(arXiv v3)
- 來源:arXiv:2503.03170
- 論文連結:https://arxiv.org/abs/2503.03170
- 主題:CTI、LLM Benchmark、Attack Sequence Understanding、MITRE ATT&CK、Reasoning、RAG、Threat Intelligence
如果前一波 CTI benchmark 論文像 CTIBench、CTIArena、AthenaBench 主要在問「模型懂不懂 CTI 知識、會不會做 attribution、能不能做 mitigation recommendation」,那 AttackSeqBench 把問題再往前推一步:模型到底能不能看懂一整條攻擊序列,而不是只回答單一知識點?
這篇論文很值得讀,因為它抓到一個很多安全 AI demo 常被忽略的痛點:真實世界的 CTI 報告,不是幾個獨立的 IOC,也不是一題一答的 fact lookup。它描述的是多階段、多步驟、跨 tactic 與 technique 的攻擊流程。如果模型只能辨識單點資訊,卻無法理解行為之間的先後、依賴與推進關係,那它在實戰裡就很難真的幫 analyst 推理後續威脅。
這篇論文想解決什麼?
作者把目標講得很清楚:現有 CTI report understanding 研究,多半著重在 threat entity extraction、knowledge graph construction、單點 attribution 或一般知識問答;但對於攻擊序列(attack sequence)本身的理解與推理能力,研究仍然不足。
而這件事之所以重要,是因為真實攻擊很少只有一步。APT 或多階段入侵通常會經過:
- 初始入侵
- payload 投遞與執行
- 橫向移動或控制通道建立
- 持續化、資料竊取或最終行動
也就是說,防守方真正需要理解的,不只是「這裡出現了某個 malware / IP / technique」,而是:
這些 TTP 是怎麼串起來的?哪一步先、哪一步後?哪個 tactic 支撐哪個 technique?某個 procedure 是否符合既有 sequence?
AttackSeqBench 的核心價值,就在於它把這種 sequence-level reasoning 正式拉進 benchmark。
AttackSeqBench 的三個設計目標
作者沒有只做一份題庫,而是先定義這個 benchmark 應該滿足什麼條件。論文提出三個關鍵要求:
- Extensibility:能持續吸收新的 CTI 報告與新攻擊序列
- Reasoning Scalability:可檢驗一般 LLM 與 Large Reasoning Models(LRMs)在這類任務上的差異
- Domain-Specific Epistemic Expandability:可測試加入資安知識、context 或 RAG 後,模型是否真的變得更會推理
這三點其實比表面上更重要。因為這篇論文不是只想證明某個模型高分,而是想回答更根本的問題:如果攻擊序列理解真的是一種特殊而高階的 CTI 能力,那我們要如何持續、系統化、可比較地評估它?
作者怎麼定義 attack sequence?
這篇 paper 有一個很關鍵的形式化定義。作者把 attack sequence 寫成四元組:
S = (T, E, P, O)
- T:tactic sequence,也就是依序排列的 ATT&CK tactics
- E:每個 tactic 對應的 techniques / sub-techniques
- P:每個 technique 對應的 procedures,表示成 (subject, action, object) triplets
- O:依 tactic 順序整理出的 CTI outline 文字摘要
這個定義很有價值,因為它把原本鬆散、冗長的 CTI 報告,轉成一個可以對應tactic → technique → procedure 階層的結構化表示。也因此,後面的 benchmark task 才能不是只問 fact,而是問 sequence 與 alignment。
資料集怎麼來?不是人工手工慢慢標而已
AttackSeqBench 的資料建構流程相當完整。作者先蒐集 408 份真實 CTI reports,來源涵蓋多家 security vendor,接著利用既有的 LLM-based CTI knowledge graph construction framework,從報告中抽出多層 TTP、生成 CTI outline,再組成 attack sequence。
值得注意的是,作者還特別排除了只包含少於兩個 tactics 的 outline,因為那種樣本通常不足以代表真正的多步驟攻擊模式。這表示他們不是只追求數量,而是希望 sequence 真的有 sequence 的樣子。
三種任務:這個 benchmark 到底在測什麼?
AttackSeqBench 圍繞 MITRE ATT&CK 的行為層次,設計了三個 task:
1. AttackSeqBench-Tactic
給定攻擊脈絡,要求模型推斷對應的 tactic。這是在測模型能不能從 sequence 脈絡中辨識高層目的與階段,而不是只認字面關鍵詞。
2. AttackSeqBench-Technique
再往下一層,要求模型判斷正確的 technique / sub-technique。這一層比 tactic 更細,也更接近 analyst 日常 mapping 工作。
3. AttackSeqBench-Procedure
這一層最有意思。它改成 yes/no 問題,檢查某個 procedure 是否符合給定的 attack sequence。換句話說,這不是在背 ATT&CK 表格,而是在測模型能不能判斷某段程序敘述是否真的和該 sequence 的邏輯一致。
這三個 task 加起來,剛好對應:
- 高層戰術理解
- 中層技術映射
- 低層程序一致性判斷
這比很多單點 benchmark 更接近真實 CTI 分析工作。
資料品質控制:這篇做得比很多 benchmark 細
作者不是讓 GPT 直接吐題就收工。整體 Q&A pipeline 至少包含:
- answer-aware question generation
- few-shot prompt 強化題目相關性
- 多選題 distractor 的規則化設計
- yes/no negative sample 的轉換策略
- 依據多項 criteria 的 iterative self-refine
作者用六個面向去評估與修題,包括:
- Clarity
- Answerability
- Relevance
- Consistency
- Answer Consistency
- Logic
而且不是只靠自動分數。論文還做了 human evaluation:每個子任務抽樣給三位資安專家評估。結果顯示題目整體具有不錯的可理解度與對 sequence 的對齊性,但人類正確率平均約 0.63,代表這不是那種一眼就能答的簡單題。
這點很重要:一個像樣的 CTI benchmark,不應該只是讓模型刷高分,而要先確保題目真的難、真的合理、真的貼近 analyst 會碰到的 sequence reasoning。
三種評測設定:不是只有 zero-shot
AttackSeqBench 另一個亮點,是作者沒有把評測侷限在 zero-shot,而是設計三種設定:
1. Zero-Shot
只靠模型內部知識答題。這是 baseline,也是最直接的能力測試。
2. Context Setting
提供部分 CTI outline,但會拿掉對應正解的那段文字,逼模型用剩餘 sequence 做 abductive reasoning。這個設計很巧,因為它不是直接餵答案,而是測模型能不能靠前後脈絡補全缺失行為。
3. RAG-Empowered Setting
加入檢索輔助,希望模型利用外部知識改善對 CTI sequence 的理解。這也是很多人對安全 AI 最自然的期待:內建知識不夠,那接 RAG 應該會更強吧?
而這篇論文最有價值的一點,就是它真的把這個期待拿去驗證,而不是直接假設成立。
評測了哪些模型?
作者評估了:
- 7 個 LLMs:如 Qwen2.5-3B/14B/32B、Llama3.1-8B、Llama3.3-70B、ChatGLM4-9B、GPT-4o
- 5 個 LRMs:如 DeepSeek-R1 系列、QwQ-32B、GPT-o3-mini
- 4 種 post-training 策略:SFT、RD、RLIF、RLVR
這樣的設計讓論文不只是比較模型大小,還能比較三件事:
- 一般 LLM 與 reasoning model 的差異
- 是否加入額外資安知識真的有效
- RAG / context 到底有沒有想像中萬能
主要結果一:大模型確實較強,但不是全面穩贏
從表格結果來看,參數較大的模型通常表現比較好,像 Qwen2.5-32B、Llama3.3-70B、GPT-4o 整體都比小模型強,這並不意外。
但這篇論文真正有意思的地方,不在於「大模型比較強」這種老結論,而在於:
- 不同 task 的差距很大
- context setting 常常比 zero-shot 有幫助
- RAG setting 卻經常沒有想像中好,甚至會變差
例如部分模型在 procedure 與 technique 任務的 context setting 會明顯提升,但 RAG 設定反而未必能穩定增分。這代表對 attack sequence 這類任務來說,問題不只是缺知識,而是如何讓檢索到的知識和序列語意正確對齊。
主要結果二:LRMs 沒有展現大家期待中的壓倒性優勢
這可能是全文最值得畫線的一個發現。作者明確指出:現有 Large Reasoning Models 在 attack sequence analysis 上,並沒有像在數學、程式或一般推理任務中那樣明顯勝出,甚至很多情況下還更差。
這個結論很重要,因為它幾乎是在對整個「只要 reasoning 更強,就自然會更懂安全分析」的想像踩煞車。
原因可能在於:
- attack sequence reasoning 不是純形式推理
- 它高度依賴 domain semantics 與 CTI 專業知識
- 推理鍊再長,若對 ATT&CK / TTP 關係理解不足,一樣會錯
換句話說,這類任務的瓶頸可能不在「會不會想」,而在「有沒有正確而細緻的安全知識結構可供思考」。
主要結果三:RAG 不是萬靈丹
這篇論文另一個很值得安全從業者重視的地方,是它直接展示了 RAG 的限制。作者發現,在 AttackSeqBench 上,RAG 設定常常沒有穩定提升,某些情況還會比 context 或 zero-shot 更差。
這代表在 sequence-heavy 的 CTI 任務裡,RAG 可能會遇到幾個問題:
- 檢索內容雖相關,卻沒有對應正確的 sequence 階段
- 檢索片段破壞了原本的時序與結構理解
- 模型被額外知識干擾,反而無法聚焦當前 attack path
這對現在很多「CTI Copilot + RAG」型架構是一個很好的提醒:把資料塞進去,不等於就會更懂 sequence。 如果 retrieval 本身不懂 attack structure,最後只會把模型往更多表面相關資訊裡推。
AttackSeqBench 為什麼值得看?
我認為這篇論文至少有四層價值:
- 它把 CTI benchmark 從單點知識問答推進到 sequence reasoning。
- 它證明了 attack sequence understanding 是一個和一般 benchmark 不一樣的難題。
- 它給了「LRM 是否真能幫安全分析」一個沒那麼樂觀、但很有參考價值的答案。
- 它提醒我們:RAG 與外部知識注入若沒有結構感,未必能改善 CTI 推理。
對 sectools.tw 近期這條 benchmark 脈絡來說,AttackSeqBench 的位置很清楚:
- CTIBench 較像打基礎,把 CTI 任務拆出來評測
- CTIArena 擴大異質題型與推理檢驗
- AthenaBench 強調動態更新與實務導向任務
- AttackSeqBench 則把焦點壓到 multi-step attack understanding 本身
也因此,它不是重複前面幾篇,而是把 benchmark 主線推向更接近真實 attack-chain analysis 的地方。
論文限制
當然,這篇也不是沒有侷限:
- 資料建構仍大量依賴 LLM pipeline,雖然有 refinement 與人評,但仍可能帶入生成偏差
- benchmark 主要仍是問答形式,和真實 analyst workflow 還有距離
- sequence 理解被映射到 ATT&CK 結構,這很實用,但也會限制對 ATT&CK 之外行為語意的表達
- RAG 設定的失敗雖然重要,但也可能部分來自實作細節,未必代表所有 sequence-aware RAG 都不行
不過這些限制反而讓這篇論文更有研究價值,因為它清楚指出了下一步該補什麼:更懂 sequence 的 retrieval、更強的 domain adaptation、以及更接近 analyst workbench 的長流程 benchmark。
總結
AttackSeqBench 是一篇相當關鍵的 CTI benchmark 論文,因為它把問題從「模型懂不懂資安知識」往前推進成「模型能不能看懂攻擊是如何一步一步展開的」。
它傳遞出的訊息很清楚:
- CTI 不是只有單點 fact extraction
- attack sequence understanding 是更高階、也更接近實務的能力
- 大模型雖然較強,但 sequence reasoning 依然不穩
- LRM 在這類任務上沒有展現想像中的壓倒性優勢
- RAG 如果沒有結構感,未必幫得上忙
如果你正在做 threat hunting copilot、CTI analyst assistant、attack graph reasoning,或任何號稱能理解多步驟攻擊流程的安全 AI 系統,AttackSeqBench 很值得拿來當參照。因為它真正問的不是模型會不會講,而是:
當攻擊不再是單一事件,而是一整條需要理解順序、依賴與語意關係的行為鏈時,模型到底還剩多少可靠能力?
免責聲明
本文由 AI 產生、整理與撰寫,內容主要依據公開論文、技術文件與可取得之研究資料進行彙整、解讀與摘要。儘管已盡力確保內容之完整性與可讀性,仍可能因模型理解限制、資料來源差異或語意轉譯過程而存在疏漏、不精確或更新延遲之處。本文內容僅供研究交流與知識分享參考,實際技術細節、實驗設定與最終結論,仍應以原始論文、官方文件及作者公開資料為準。
