What Are Adversaries Doing? 論文閱讀分析：當 CTI 自動化還停在貼 technique 標籤，真正的對手早就不只留下一個答案

2026 年 4 月 10 日

論文基本資訊

論文標題：What Are Adversaries Doing? Automating Tactics, Techniques, and Procedures Extraction: A Systematic Review
作者：Mahzabin Tamanna、Shaswata Mitra、Md Erfan、Ahmed Ryan、Sudip Mittal、Laurie Williams、Md Rayhanur Rahman
年份：2026
來源：arXiv:2604.02377
論文連結：https://arxiv.org/abs/2604.02377
DOI：10.48550/arXiv.2604.02377
主題：TTP Extraction、CTI、MITRE ATT&CK、Systematic Review、Information Extraction、LLM for Security

如果前面那一串文章都在談 agent 怎麼攻、怎麼守、怎麼被供應鏈暗算，那這篇 What Are Adversaries Doing? 值得看的地方，在於它把鏡頭往後拉了一步，不再只問「某個模型又多強了沒」，而是改問一個更根本、也更該先搞清楚的問題：

這整個「從非結構化 CTI 文字裡自動抽出 adversary TTP」的研究領域，到底現在做到了哪裡？又到底卡在哪裡？

這不是 flashy benchmark，也不是另一篇秀 prompt engineering 成果的 paper。它是一篇系統性回顧，整理了 80 篇同行評審研究，把自動化 TTP extraction 這條線拆開來看：大家想抽的是什麼、資料從哪來、怎麼標註、用什麼模型、拿什麼指標評估、最後又有多少東西真的可重現。

而我覺得它最重要的價值，不只是幫讀者省下翻 80 篇 paper 的時間，而是很直接地指出一件讓人有點尷尬的事：

我們嘴上常說要讓 CTI 自動化、結構化、可 operationalize，但很多研究其實還停在「把句子分一分，貼上一個 technique label」這個階段，距離真實分析工作需要的多事件關聯、跨來源整合、程序層還原與可重現驗證，仍然有不小落差。

這篇論文在解決什麼問題？

CTI 報告越來越多，人工閱讀當然撐不住。於是大家自然會想把這些文字自動映射到 MITRE ATT&CK：把 tactic、technique、procedure、IoC、actor behavior 從報告裡抽出來，變成可搜尋、可統計、可餵給 detection engineering、threat hunting、knowledge graph 或 downstream defense 的結構化知識。

問題是，這個研究領域雖然熱，但其實非常碎：

有的研究做 technique classification
有的做 IOC + TTP extraction
有的偏 knowledge graph construction
有的用 BERT / RoBERTa / SecureBERT
有的開始試 prompting、RAG、lightweight fine-tuning
但資料集、標註方式、評估標準、任務定義常常彼此不相容

於是結果就是：每篇 paper 看起來都說自己進步了，可是你很難知道它到底比誰好、在哪些條件下真的有用、換一個資料來源還能不能成立。

這篇 systematic review 要補的，就是這個缺口。作者不是再提一個新模型，而是幫整個領域做一次盤點：研究重心到底偏去哪裡、盲點在哪裡、哪些結論值得相信、哪些只是被 evaluation setting 美化過。

最值得注意的發現之一：大家最愛做的，還是 technique-level classification

作者整理後指出，現有研究裡最主流的任務 formulation，仍然是 technique-level classification。也就是說，給模型一段 CTI 文字，看看能不能把它映射到某個 ATT&CK technique。

這件事當然重要，因為 technique 是 ATT&CK 裡最好用、也最常被 downstream system 消費的粒度；但這篇 paper 讓人看到的問題是：如果整個領域大多停在 technique label prediction，你最後得到的比較像是一個會貼標籤的分類器，而不是一個真的懂 adversary behavior 的 CTI analyst substitute。

作者特別指出，tactic classification 與 technique searching / retrieval 相對被低度探索，而更細的 procedure-level extraction、跨句關聯、步驟還原、上下文整合，也遠沒有 technique classification 那麼成熟。這個失衡其實很關鍵，因為實務裡分析人員真正想知道的，往往不是「這句像不像 T1059」，而是：

這個攻擊鏈前後順序是什麼？
同一批報告裡哪些描述其實在指同一個 procedure？
這個 technique 是被觀察到、被推測到，還是只是泛用背景知識？
它和 actor、malware、infrastructure、campaign context 的關聯是什麼？

也就是說，研究社群最常做的任務，和實務場景最需要的理解深度，並不完全重疊。

方法演進很清楚：從規則、傳統機器學習，一路走到 transformer，再開始試 LLM

這篇 paper 很適合拿來看一條典型技術演化線。作者把方法大致整理成幾個時代：

Rule-based / pattern matching：靠字典、規則、模板、關鍵詞做匹配
Traditional ML：例如 Naive Bayes、SVM 之類的分類方法
Deep learning / transformer：BERT、RoBERTa、SecureBERT 等上下文模型開始成為主流
LLM-based approaches：prompting、RAG、輕量 fine-tuning 開始出現，但仍屬於比較新的探索階段

這條線本身不意外，但作者整理後有兩個訊號很值得記住。

第一，transformer-based 方法之所以成為主流，不只是因為它們比較新，而是因為 CTI 文字本來就高度語境化。同一句話裡的技術名詞、工具名稱、敘述方式，常常要靠上下文才能判斷它是在描述攻擊行為、產品能力、背景知識，還是 analyst commentary。傳統關鍵字或淺層特徵模型，碰到這種文本很容易失真。

第二，LLM 的確開始進場，但目前還談不上已經把這個領域徹底改寫。作者的描述很克制：LLM adoption 是 emergent 的，意思不是沒潛力，而是現在多數工作仍在早期探索，很多結果還停留在 proof-of-concept，距離可穩定比較、可大規模部署、可跨資料集驗證，還差不少補課。

這篇 review 最刺的地方：資料與評估方式太碎，導致很多「高分」其實很難拿來相信

我認為這篇 paper 真正重要的地方，不是它告訴你哪個模型表現比較高，而是它把這個領域最長期、也最常被忽略的結構性問題講得很清楚：資料集太碎、標註太不一致、評估太局部。

作者點出的幾個問題都很致命：

很多研究依賴單一資料集，而且資料來源狹窄
不少任務設計過度簡化，例如單標籤分類，無法反映真實 CTI 文字常見的一段對應多個 technique
evaluation settings 有限，缺少跨資料來源、跨 domain、跨時間的 generalization 檢驗
公開 artifact 不足，包含資料集、程式碼、標註流程都常不完整

這幾點疊在一起的後果，就是：你看到的是一堆 paper 各自在自己的小盒子裡做得不錯，但很難確認誰真的能離開實驗室，在新的 CTI 語料上繼續站得住。

尤其在 CTI 這種高度異質的領域，這個問題會被放大。因為真實世界資料可能來自：

廠商 threat report
incident report
blog、news、advisory
vulnerability disclosure
forum、social media、甚至地下社群內容

如果模型只在某一類乾淨、標註過、範圍有限的文字上得高分，那它更像是dataset specialist，不一定是能上真實 CTI 生產線的系統。

作者的方法很紮實，因為它不是隨便挑幾篇，而是真的把研究地圖拉出來

這篇 review 的可信度，來自它的整理不是憑感覺。作者做的是比較標準的系統性文獻回顧流程：

從 IEEE Xplore、ACM Digital Library、ScienceDirect、SpringerLink、ACL 五個資料庫搜尋
時間範圍抓 2015 到 2025 年 6 月
初步搜尋得到 3,219 篇 記錄
經過去重、篩選、forward / backward snowballing 後，進一步評估
最後保留 80 篇 與 TTP extraction 直接相關的同行評審研究
兩位作者獨立篩選，Cohen’s kappa = 0.86，代表一致性很高

接著，作者再用 open coding 去整理這些研究，歸納出多個維度： extraction purpose、data source、dataset collection / preprocessing、annotation / construction、methodology、metrics、artifact availability 等。

換句話說，這篇 paper 最有用的地方，不只是「讀過很多篇」，而是它把這個研究領域拆成一個可比較的地圖。這對做研究的人很重要，因為它讓你知道自己是在補空白，還是在重複做一個別人已經做過很多次、只是資料集換了名字的題目。

為什麼 reproducibility 會是這篇 paper 的重點？因為 CTI extraction 最怕的不是做不出來，而是沒人能確認你真的做到了

這篇 review 一再碰到的痛點，是 reproducibility。很多研究使用 proprietary dataset、受限語料、沒有完整公開標註流程，或只釋出部分程式碼。這在一般 NLP 領域已經是問題，在 CTI 領域更糟，因為：

資料本來就常含有版權、敏感資訊或商業限制
ATT&CK mapping 牽涉標註解釋空間，沒有 guideline 很難重做
不同研究會做不同程度的前處理，細節一缺，結果就不能比

所以這篇 paper 其實在提醒研究社群一個不太好聽但很必要的現實：如果你的 TTP extraction 系統只有你自己那份不公開語料能跑得漂亮，那它對整個領域的累積價值其實有限。

這也正是為什麼安全領域需要更多公開 benchmark、清楚標註協議、跨資料集測試，以及更貼近 analyst workflow 的評估方式。否則我們就會一直重複一個很熟悉的循環：每一篇 paper 都說自己 improve state of the art，但整個領域卻很難真正往前建立共同基準。

我怎麼看這篇論文？它不是在告訴你哪個模型最強，而是在提醒你整個問題其實還沒被定義完整

我很喜歡這篇 paper 的地方，在於它沒有把 TTP extraction 過度浪漫化。它沒有說「LLM 來了所以快解完了」，也沒有用幾個漂亮案例就假裝這條線已經成熟。相反地，它把事情講得很務實：

這個領域確實在進步，但目前多數成果仍集中在比較容易量化、比較容易發表的任務切片上，而不是完整覆蓋真實 CTI 分析工作的複雜度。

這句話其實很重要。因為如果你今天在做 SOC、threat hunting、CTI knowledge graph、ATT&CK mapping pipeline，這篇 paper 會提醒你：不要把「模型能抽 technique label」誤認成「系統已經理解 adversary tradecraft」。

兩者之間差很遠。前者是分類任務，後者是分析能力。前者可能在乾淨 benchmark 上很好看，後者則牽涉語境、證據強度、跨文件整合、歧義處理、時間序列、行動鏈還原，甚至 analyst 最後願不願意信它。

對 CTI / AI 實務最重要的 takeaway

如果把這篇和最近一串 CTI / agentic security / benchmark paper 放在一起看，我覺得它給實務界至少四個很硬的提醒：

不要把 TTP extraction 縮成單一分類題：真實需求是 procedure、sequence、context 與 evidence 的組合
不要迷信單資料集高分：跨來源、跨語域、跨時間的 generalization 才更接近實戰
不要忽略資料與標註治理：沒有公開、可重做的資料流程，就很難建立可信基準
不要把 LLM 當成自動解法終點：它是新工具，但不是自動消除 ontology ambiguity 與 evaluation debt 的魔法

如果再說得更直白一點，這篇 paper 的核心訊息其實是：

CTI 自動化最難的，不是把文字送進模型，而是先誠實面對我們到底想從文字裡抽出什麼、如何定義對、以及怎麼證明它不是只在自己那份資料上看起來很會。

而這也是我認為 What Are Adversaries Doing? 值得被讀的一點。它沒有提供一個立刻可 deploy 的新框架，但它幫整個領域照了鏡子：我們現在已經會做一些事，但距離真正讓 TTP extraction 成為可靠 CTI 基礎設施，還有不少方法論債要還。

對研究者來說，這篇是 roadmap；對實務人員來說，這篇則是一句很好的提醒：當你看到任何號稱自動化 ATT&CK mapping 的系統時，先不要只問它 F1 多高，先問它是不是只會在一份熟悉資料集上把 adversary 壓成單一標籤。

本文由 AI 產生、整理與撰寫

What Are Adversaries Doing? 論文閱讀分析：當 CTI 自動化還停在貼 technique 標籤，真正的對手早就不只留下一個答案

論文基本資訊

這篇論文在解決什麼問題？

最值得注意的發現之一：大家最愛做的，還是 technique-level classification

方法演進很清楚：從規則、傳統機器學習，一路走到 transformer，再開始試 LLM

這篇 review 最刺的地方：資料與評估方式太碎，導致很多「高分」其實很難拿來相信

作者的方法很紮實，因為它不是隨便挑幾篇，而是真的把研究地圖拉出來

為什麼 reproducibility 會是這篇 paper 的重點？因為 CTI extraction 最怕的不是做不出來，而是沒人能確認你真的做到了

我怎麼看這篇論文？它不是在告訴你哪個模型最強，而是在提醒你整個問題其實還沒被定義完整

對 CTI / AI 實務最重要的 takeaway

發佈留言取消回覆

You may also like

近期文章

廣告

文章分類

近期留言

論文基本資訊

這篇論文在解決什麼問題？

最值得注意的發現之一：大家最愛做的，還是 technique-level classification

方法演進很清楚：從規則、傳統機器學習，一路走到 transformer，再開始試 LLM

這篇 review 最刺的地方：資料與評估方式太碎，導致很多「高分」其實很難拿來相信

作者的方法很紮實，因為它不是隨便挑幾篇，而是真的把研究地圖拉出來

為什麼 reproducibility 會是這篇 paper 的重點？因為 CTI extraction 最怕的不是做不出來，而是沒人能確認你真的做到了

我怎麼看這篇論文？它不是在告訴你哪個模型最強，而是在提醒你整個問題其實還沒被定義完整

對 CTI / AI 實務最重要的 takeaway

發佈留言 取消回覆

You may also like

KGV 論文閱讀分析：用大型語言模型與知識圖譜評估 CTI 可信度

Instantiating Standards 論文閱讀分析：當 ATT&CK 自動抽取真正要可靠，模型就不能只是在背資料集答案

近期文章

廣告

文章分類

近期留言

發佈留言取消回覆