Instantiating Standards 論文閱讀分析：當 ATT&CK 自動抽取真正要可靠，模型就不能只是在背資料集答案

2026 年 4 月 10 日

論文基本資訊

論文標題：Instantiating Standards: Enabling Standard-Driven Text TTP Extraction with Evolvable Memory
作者：Cheng Meng、ZhengWei Jiang、QiuYun Wang、XinYi Li、ChunYan Ma、FangMing Dong、FangLi Ren、BaoXu Liu
來源：arXiv
年份：2025
arXiv：https://arxiv.org/abs/2505.09261
主題：CTI、MITRE ATT&CK、TTP Extraction、Explainability、Evolvable Memory、Standard-Driven Intelligence

如果說很多 CTI 自動化研究在比的是「誰把 technique 分類分得更準」，那這篇 Instantiating Standards 真正想處理的，是一個更麻煩、也更接近實務的問題：就算模型分對了，它到底是不是依照 ATT&CK 標準在分？

這不是咬文嚼字。CTI 現場真正會痛的，往往不是只有 F1 少幾個百分點，而是同一段 threat report，兩套系統、兩個分析師、兩個團隊，最後給出不同 technique；更糟的是，你還說不清它們到底差在哪。作者抓到的核心很準：現在很多方法其實是在學資料集，不是在學標準。

本文由 AI 產生、整理與撰寫。

這篇論文要解的是什麼？

MITRE ATT&CK 當然早就是 TTP extraction 最常見的目標框架，但它原本是設計給人讀、給人分析、給人對照的知識庫，不是天然就長成適合機器快速分類的形式。作者指出，直接把 ATT&CK 原始定義丟給自動化系統，會碰到幾個老問題：

規模太大：techniques / sub-techniques 太多，候選集合很難快速縮小。
界線不夠顯式：相近 techniques 之間缺少明確 contrastive relationship。
定義太冗長：對人類分析很有幫助，對機器分類卻太重、太散。

於是很多系統最後退回比較容易優化的路：拿標註資料做 supervised fitting、用 prompt 去貼近 benchmark、追求 test score。這些做法不是沒有用，但如果標註資料本身就混有偏好、舊版本 ATT&CK、不同 annotator 的判準，模型學到的就可能是資料集習慣，而不是官方標準本身。

這篇 paper 的核心主張可以濃縮成一句話：

真正可靠的 TTP extraction，不只要會把句子對到 ATT&CK，還要能把「為什麼是這個 technique、不是隔壁那個」說清楚，而且這個理由最好來自標準本身。

方法重點：不是直接分類，而是先把標準「實例化」成可操作知識

作者提出的關鍵概念叫做 Situational Knowledge Representation（SKR），可以把它理解成一種把 ATT&CK 官方定義重新整理成「比較適合機器拿來判斷」的中介知識層。它不是取代 ATT&CK，而是把 ATT&CK 從抽象標準，轉成更可操作、可檢查、可逐步更新的 classification guidance。

SKR 採用雙層結構：

Layer 1：Situational Context —— 先描述一種較一般化的攻擊情境或行為脈絡，例如「使用編碼過的 subdomain 與 C2 通訊」。
Layer 2：Specific Technique Manifestation —— 再把同一情境下不同 techniques 的區別點講清楚，例如 T1132 重點是 encoding method，T1071 重點是 protocol usage。

這個設計的妙處是，它試圖把人類分析師平常腦內的判斷過程外顯化：先看這段描述大概落在哪種攻擊情境，再看細節到底比較像哪個 technique。 換句話說，它不是把 LLM 當黑箱分類器，而是讓模型先幫你把「判斷框架」整理出來。

Evolvable Memory：把標準、例句與判斷依據存成可更新的記憶層

光有雙層表示還不夠，所以作者又往前推了一步：做了一個 Evolvable Memory System。這個 memory 不是聊天機器人的那種歷史對話記憶，而是專門存放 SKR 實例的知識層。

每個 memory entry 會結合三種來源：

官方 ATT&CK technique 定義
已標註的 threat report 句子
語意上相近的其他例句

接著由 LLM 自動把它們整理成一個 state + action 的知識物件。作者把這個流程分成三件事：

Memory Generation：先建立新的 SKR 記憶
Memory Optimization：遇到新證據時，擴充某個情境下的 technique manifestation
Memory Forget：把持續表現差、誤導分類的 entry 刪掉

這裡最值得注意的是作者的 framing：不是讓模型一次答對全部，而是讓模型逐步生成、更新、淘汰判斷知識。 這種做法的好處，是它把 TTP extraction 從單次 prediction，往比較像知識工程的方向拉。對 CTI 這種標準會更新、語境會漂移、資料會不一致的任務來說，這條路比單純再堆大模型其實更有意思。

推論流程也分兩段：先縮小範圍，再做驗證

在實際 extraction 時，這套系統不是直接把輸入句子扔進模型要答案，而是走兩步：

Initial Retrieval and Classification：先用 Layer 1 的 situational context 從 memory 裡取回相關情境，縮小候選 technique 範圍，再由 LLM 做初步分類。
Refinement and Verification：再根據已選 technique 與 Layer 2 的差異化描述，做第二次核對與修正。

這個第二步很重要，因為它不是只給自己用，理論上也能拿來幫其他 TTP extraction 系統做 re-check。也就是說，作者不只在做一個新 classifier，而是在做一個標準對齊層（standardization layer）：你前面可以用別的方法先抽，後面再拿這層來驗是不是符合 ATT&CK 的區分邏輯。

效果如何？分數提升不是唯一重點，重點是提升的方向

根據論文摘要與正文，這套方法在實驗中用 Qwen2.5-32B 作為核心模型，Technique F1 相較於 GPT-4o 提升約 11%；正文介紹段落則提到相較 GPT-4o 可有更高幅度提升。作者最想強調的其實不是「又贏了某個 baseline」，而是：

對相近 techniques 的區分更穩
分類理由更透明
結果更容易回頭檢查是否符合官方標準

這一點很關鍵。因為在 CTI 裡，錯一個 technique 不只是 benchmark 掉分，還可能一路影響 detection mapping、coverage 分析、campaign understanding，甚至讓不同團隊對同一 threat behavior 的理解分叉。所以比起多拿幾分，能不能把判斷依據說清楚，往往更接近 operational value。

我覺得這篇最重要的，不是 memory，而是「標準實例化」這個觀點

這篇 paper 讓我覺得值得寫，不只是因為它做了個 evolvable memory，而是它把一個很容易被忽略的問題講白了：很多自動化 TTP extraction 系統，其實沒有真的 operationalize ATT&CK，只是在用 ATT&CK label 當 supervised target。

這兩件事差很多。

前者是在問：ATT&CK 的概念邊界、對比關係、情境脈絡，怎麼轉成機器可用的判斷知識？後者則只是問：怎麼把資料集上的 label 預測對？如果只做後者，模型也許可以在一份 dataset 上看起來不錯，但一換 annotation style、一換 ATT&CK 版本、一換團隊語料，結果就開始飄。

所以這篇真正補的，不只是 extraction 模型，而是 standard operationalization gap：標準存在，不代表系統真的能依照標準穩定地工作。

它跟今天前面幾篇 CTI 論文其實能串成一條線

如果把今天傍晚一路發的幾篇放在一起看，脈絡其實很清楚：

Transparent CTI 在處理 ontology + SHACL，想讓抽取結果可驗證。
AZERG 把 threat report 往 STIX entity / relationship operationalization 推進。
Instantiating Standards 則回頭補 ATT&CK extraction 最核心的那個問題：模型到底是不是依照標準在判？

也就是說，這條主線正在慢慢從「模型會不會抽」轉成「抽完之後，能不能被知識系統接住、被標準驗證、被分析師覆核」。這比單純再發一篇 ATT&CK F1 排行榜，要有營養得多。

限制也很清楚

當然，這篇論文也不是沒有風險。

它仍依賴 LLM 生成知識層，所以如果生成品質本身有偏，memory 也可能把偏差制度化。
memory update / forget 的策略需要長期驗證，不然可能變成另一種 knowledge drift。
目前主打的是 technique-level reasoning，若拉到 tactic / procedure / campaign-level richer context，複雜度會再上升。

但即便如此，它至少已經把問題切到比較對的位置：不是再問模型夠不夠大，而是問 classification knowledge 應該長什麼樣，才真的能承接官方標準。

總結

Instantiating Standards 最值得看的地方，不在於它又把 TTP extraction 做成了一個新 pipeline，而在於它提醒我們：ATT&CK 自動化真正缺的，也許不是更多 label fitting，而是把標準本身轉成機器真的拿得動、又能回頭檢查的知識結構。

它把 discussion 從「模型答對沒」往前推成「模型為什麼這樣答、它的理由是否符合標準、這個理由能不能被人審」——而這件事，對 CTI 來說比多幾分 benchmark 更接近長期價值。

如果你在意的不只是 extraction performance，而是 standard adherence、explainability、cross-team consistency，那這篇其實比很多更花俏的 CTI LLM paper 都更值得看。

Instantiating Standards 論文閱讀分析：當 ATT&CK 自動抽取真正要可靠，模型就不能只是在背資料集答案

論文基本資訊

這篇論文要解的是什麼？

方法重點：不是直接分類，而是先把標準「實例化」成可操作知識

Evolvable Memory：把標準、例句與判斷依據存成可更新的記憶層

推論流程也分兩段：先縮小範圍，再做驗證

效果如何？分數提升不是唯一重點，重點是提升的方向

我覺得這篇最重要的，不是 memory，而是「標準實例化」這個觀點

它跟今天前面幾篇 CTI 論文其實能串成一條線

限制也很清楚

總結

發佈留言取消回覆

You may also like

近期文章

廣告

文章分類

近期留言

論文基本資訊

這篇論文要解的是什麼？

方法重點：不是直接分類，而是先把標準「實例化」成可操作知識

Evolvable Memory：把標準、例句與判斷依據存成可更新的記憶層

推論流程也分兩段：先縮小範圍，再做驗證

效果如何？分數提升不是唯一重點，重點是提升的方向

我覺得這篇最重要的，不是 memory，而是「標準實例化」這個觀點

它跟今天前面幾篇 CTI 論文其實能串成一條線

限制也很清楚

總結

發佈留言 取消回覆

You may also like

SIREN 論文閱讀分析：很多 LLM 安全真正缺的，不是再多一個 guard，而是更早讀到模型腦內已經亮起來的紅燈

HWE-Bench 論文閱讀分析：真正難的不是叫 AI 會寫 Verilog，而是讓它在完整硬體專案裡把真 bug 修到真的過

近期文章

廣告

文章分類

近期留言

發佈留言取消回覆