Instantiating Standards 論文閱讀分析:當 ATT&CK 自動抽取真正要可靠,模型就不能只是在背資料集答案

論文基本資訊

  • 論文標題:Instantiating Standards: Enabling Standard-Driven Text TTP Extraction with Evolvable Memory
  • 作者:Cheng Meng、ZhengWei Jiang、QiuYun Wang、XinYi Li、ChunYan Ma、FangMing Dong、FangLi Ren、BaoXu Liu
  • 來源:arXiv
  • 年份:2025
  • arXiv:https://arxiv.org/abs/2505.09261
  • 主題:CTI、MITRE ATT&CK、TTP Extraction、Explainability、Evolvable Memory、Standard-Driven Intelligence

如果說很多 CTI 自動化研究在比的是「誰把 technique 分類分得更準」,那這篇 Instantiating Standards 真正想處理的,是一個更麻煩、也更接近實務的問題:就算模型分對了,它到底是不是依照 ATT&CK 標準在分?

這不是咬文嚼字。CTI 現場真正會痛的,往往不是只有 F1 少幾個百分點,而是同一段 threat report,兩套系統、兩個分析師、兩個團隊,最後給出不同 technique;更糟的是,你還說不清它們到底差在哪。作者抓到的核心很準:現在很多方法其實是在學資料集,不是在學標準。

本文由 AI 產生、整理與撰寫。

這篇論文要解的是什麼?

MITRE ATT&CK 當然早就是 TTP extraction 最常見的目標框架,但它原本是設計給人讀、給人分析、給人對照的知識庫,不是天然就長成適合機器快速分類的形式。作者指出,直接把 ATT&CK 原始定義丟給自動化系統,會碰到幾個老問題:

  • 規模太大:techniques / sub-techniques 太多,候選集合很難快速縮小。
  • 界線不夠顯式:相近 techniques 之間缺少明確 contrastive relationship。
  • 定義太冗長:對人類分析很有幫助,對機器分類卻太重、太散。

於是很多系統最後退回比較容易優化的路:拿標註資料做 supervised fitting、用 prompt 去貼近 benchmark、追求 test score。這些做法不是沒有用,但如果標註資料本身就混有偏好、舊版本 ATT&CK、不同 annotator 的判準,模型學到的就可能是資料集習慣,而不是官方標準本身。

這篇 paper 的核心主張可以濃縮成一句話:

真正可靠的 TTP extraction,不只要會把句子對到 ATT&CK,還要能把「為什麼是這個 technique、不是隔壁那個」說清楚,而且這個理由最好來自標準本身。

方法重點:不是直接分類,而是先把標準「實例化」成可操作知識

作者提出的關鍵概念叫做 Situational Knowledge Representation(SKR),可以把它理解成一種把 ATT&CK 官方定義重新整理成「比較適合機器拿來判斷」的中介知識層。它不是取代 ATT&CK,而是把 ATT&CK 從抽象標準,轉成更可操作、可檢查、可逐步更新的 classification guidance。

SKR 採用雙層結構:

  • Layer 1:Situational Context —— 先描述一種較一般化的攻擊情境或行為脈絡,例如「使用編碼過的 subdomain 與 C2 通訊」。
  • Layer 2:Specific Technique Manifestation —— 再把同一情境下不同 techniques 的區別點講清楚,例如 T1132 重點是 encoding method,T1071 重點是 protocol usage。

這個設計的妙處是,它試圖把人類分析師平常腦內的判斷過程外顯化:先看這段描述大概落在哪種攻擊情境,再看細節到底比較像哪個 technique。 換句話說,它不是把 LLM 當黑箱分類器,而是讓模型先幫你把「判斷框架」整理出來。

Evolvable Memory:把標準、例句與判斷依據存成可更新的記憶層

光有雙層表示還不夠,所以作者又往前推了一步:做了一個 Evolvable Memory System。這個 memory 不是聊天機器人的那種歷史對話記憶,而是專門存放 SKR 實例的知識層。

每個 memory entry 會結合三種來源:

  • 官方 ATT&CK technique 定義
  • 已標註的 threat report 句子
  • 語意上相近的其他例句

接著由 LLM 自動把它們整理成一個 state + action 的知識物件。作者把這個流程分成三件事:

  • Memory Generation:先建立新的 SKR 記憶
  • Memory Optimization:遇到新證據時,擴充某個情境下的 technique manifestation
  • Memory Forget:把持續表現差、誤導分類的 entry 刪掉

這裡最值得注意的是作者的 framing:不是讓模型一次答對全部,而是讓模型逐步生成、更新、淘汰判斷知識。 這種做法的好處,是它把 TTP extraction 從單次 prediction,往比較像知識工程的方向拉。對 CTI 這種標準會更新、語境會漂移、資料會不一致的任務來說,這條路比單純再堆大模型其實更有意思。

推論流程也分兩段:先縮小範圍,再做驗證

在實際 extraction 時,這套系統不是直接把輸入句子扔進模型要答案,而是走兩步:

  1. Initial Retrieval and Classification:先用 Layer 1 的 situational context 從 memory 裡取回相關情境,縮小候選 technique 範圍,再由 LLM 做初步分類。
  2. Refinement and Verification:再根據已選 technique 與 Layer 2 的差異化描述,做第二次核對與修正。

這個第二步很重要,因為它不是只給自己用,理論上也能拿來幫其他 TTP extraction 系統做 re-check。也就是說,作者不只在做一個新 classifier,而是在做一個標準對齊層(standardization layer):你前面可以用別的方法先抽,後面再拿這層來驗是不是符合 ATT&CK 的區分邏輯。

效果如何?分數提升不是唯一重點,重點是提升的方向

根據論文摘要與正文,這套方法在實驗中用 Qwen2.5-32B 作為核心模型,Technique F1 相較於 GPT-4o 提升約 11%;正文介紹段落則提到相較 GPT-4o 可有更高幅度提升。作者最想強調的其實不是「又贏了某個 baseline」,而是:

  • 對相近 techniques 的區分更穩
  • 分類理由更透明
  • 結果更容易回頭檢查是否符合官方標準

這一點很關鍵。因為在 CTI 裡,錯一個 technique 不只是 benchmark 掉分,還可能一路影響 detection mapping、coverage 分析、campaign understanding,甚至讓不同團隊對同一 threat behavior 的理解分叉。所以比起多拿幾分,能不能把判斷依據說清楚,往往更接近 operational value。

我覺得這篇最重要的,不是 memory,而是「標準實例化」這個觀點

這篇 paper 讓我覺得值得寫,不只是因為它做了個 evolvable memory,而是它把一個很容易被忽略的問題講白了:很多自動化 TTP extraction 系統,其實沒有真的 operationalize ATT&CK,只是在用 ATT&CK label 當 supervised target。

這兩件事差很多。

前者是在問:ATT&CK 的概念邊界、對比關係、情境脈絡,怎麼轉成機器可用的判斷知識?後者則只是問:怎麼把資料集上的 label 預測對?如果只做後者,模型也許可以在一份 dataset 上看起來不錯,但一換 annotation style、一換 ATT&CK 版本、一換團隊語料,結果就開始飄。

所以這篇真正補的,不只是 extraction 模型,而是 standard operationalization gap標準存在,不代表系統真的能依照標準穩定地工作。

它跟今天前面幾篇 CTI 論文其實能串成一條線

如果把今天傍晚一路發的幾篇放在一起看,脈絡其實很清楚:

  • Transparent CTI 在處理 ontology + SHACL,想讓抽取結果可驗證。
  • AZERG 把 threat report 往 STIX entity / relationship operationalization 推進。
  • Instantiating Standards 則回頭補 ATT&CK extraction 最核心的那個問題:模型到底是不是依照標準在判?

也就是說,這條主線正在慢慢從「模型會不會抽」轉成「抽完之後,能不能被知識系統接住、被標準驗證、被分析師覆核」。這比單純再發一篇 ATT&CK F1 排行榜,要有營養得多。

限制也很清楚

當然,這篇論文也不是沒有風險。

  • 它仍依賴 LLM 生成知識層,所以如果生成品質本身有偏,memory 也可能把偏差制度化。
  • memory update / forget 的策略需要長期驗證,不然可能變成另一種 knowledge drift。
  • 目前主打的是 technique-level reasoning,若拉到 tactic / procedure / campaign-level richer context,複雜度會再上升。

但即便如此,它至少已經把問題切到比較對的位置:不是再問模型夠不夠大,而是問 classification knowledge 應該長什麼樣,才真的能承接官方標準。

總結

Instantiating Standards 最值得看的地方,不在於它又把 TTP extraction 做成了一個新 pipeline,而在於它提醒我們:ATT&CK 自動化真正缺的,也許不是更多 label fitting,而是把標準本身轉成機器真的拿得動、又能回頭檢查的知識結構。

它把 discussion 從「模型答對沒」往前推成「模型為什麼這樣答、它的理由是否符合標準、這個理由能不能被人審」——而這件事,對 CTI 來說比多幾分 benchmark 更接近長期價值。

如果你在意的不只是 extraction performance,而是 standard adherence、explainability、cross-team consistency,那這篇其實比很多更花俏的 CTI LLM paper 都更值得看。

You may also like