What Are Adversaries Doing? 論文閱讀分析:當 CTI 自動化還停在貼 technique 標籤,真正的對手早就不只留下一個答案
論文基本資訊
- 論文標題:What Are Adversaries Doing? Automating Tactics, Techniques, and Procedures Extraction: A Systematic Review
- 作者:Mahzabin Tamanna、Shaswata Mitra、Md Erfan、Ahmed Ryan、Sudip Mittal、Laurie Williams、Md Rayhanur Rahman
- 年份:2026
- 來源:arXiv:2604.02377
- 論文連結:https://arxiv.org/abs/2604.02377
- DOI:10.48550/arXiv.2604.02377
- 主題:TTP Extraction、CTI、MITRE ATT&CK、Systematic Review、Information Extraction、LLM for Security
如果前面那一串文章都在談 agent 怎麼攻、怎麼守、怎麼被供應鏈暗算,那這篇 What Are Adversaries Doing? 值得看的地方,在於它把鏡頭往後拉了一步,不再只問「某個模型又多強了沒」,而是改問一個更根本、也更該先搞清楚的問題:
這整個「從非結構化 CTI 文字裡自動抽出 adversary TTP」的研究領域,到底現在做到了哪裡?又到底卡在哪裡?
這不是 flashy benchmark,也不是另一篇秀 prompt engineering 成果的 paper。它是一篇系統性回顧,整理了 80 篇同行評審研究,把自動化 TTP extraction 這條線拆開來看:大家想抽的是什麼、資料從哪來、怎麼標註、用什麼模型、拿什麼指標評估、最後又有多少東西真的可重現。
而我覺得它最重要的價值,不只是幫讀者省下翻 80 篇 paper 的時間,而是很直接地指出一件讓人有點尷尬的事:
我們嘴上常說要讓 CTI 自動化、結構化、可 operationalize,但很多研究其實還停在「把句子分一分,貼上一個 technique label」這個階段,距離真實分析工作需要的多事件關聯、跨來源整合、程序層還原與可重現驗證,仍然有不小落差。
這篇論文在解決什麼問題?
CTI 報告越來越多,人工閱讀當然撐不住。於是大家自然會想把這些文字自動映射到 MITRE ATT&CK:把 tactic、technique、procedure、IoC、actor behavior 從報告裡抽出來,變成可搜尋、可統計、可餵給 detection engineering、threat hunting、knowledge graph 或 downstream defense 的結構化知識。
問題是,這個研究領域雖然熱,但其實非常碎:
- 有的研究做 technique classification
- 有的做 IOC + TTP extraction
- 有的偏 knowledge graph construction
- 有的用 BERT / RoBERTa / SecureBERT
- 有的開始試 prompting、RAG、lightweight fine-tuning
- 但資料集、標註方式、評估標準、任務定義常常彼此不相容
於是結果就是:每篇 paper 看起來都說自己進步了,可是你很難知道它到底比誰好、在哪些條件下真的有用、換一個資料來源還能不能成立。
這篇 systematic review 要補的,就是這個缺口。作者不是再提一個新模型,而是幫整個領域做一次盤點:研究重心到底偏去哪裡、盲點在哪裡、哪些結論值得相信、哪些只是被 evaluation setting 美化過。
最值得注意的發現之一:大家最愛做的,還是 technique-level classification
作者整理後指出,現有研究裡最主流的任務 formulation,仍然是 technique-level classification。也就是說,給模型一段 CTI 文字,看看能不能把它映射到某個 ATT&CK technique。
這件事當然重要,因為 technique 是 ATT&CK 裡最好用、也最常被 downstream system 消費的粒度;但這篇 paper 讓人看到的問題是:如果整個領域大多停在 technique label prediction,你最後得到的比較像是一個會貼標籤的分類器,而不是一個真的懂 adversary behavior 的 CTI analyst substitute。
作者特別指出,tactic classification 與 technique searching / retrieval 相對被低度探索,而更細的 procedure-level extraction、跨句關聯、步驟還原、上下文整合,也遠沒有 technique classification 那麼成熟。這個失衡其實很關鍵,因為實務裡分析人員真正想知道的,往往不是「這句像不像 T1059」,而是:
- 這個攻擊鏈前後順序是什麼?
- 同一批報告裡哪些描述其實在指同一個 procedure?
- 這個 technique 是被觀察到、被推測到,還是只是泛用背景知識?
- 它和 actor、malware、infrastructure、campaign context 的關聯是什麼?
也就是說,研究社群最常做的任務,和實務場景最需要的理解深度,並不完全重疊。
方法演進很清楚:從規則、傳統機器學習,一路走到 transformer,再開始試 LLM
這篇 paper 很適合拿來看一條典型技術演化線。作者把方法大致整理成幾個時代:
- Rule-based / pattern matching:靠字典、規則、模板、關鍵詞做匹配
- Traditional ML:例如 Naive Bayes、SVM 之類的分類方法
- Deep learning / transformer:BERT、RoBERTa、SecureBERT 等上下文模型開始成為主流
- LLM-based approaches:prompting、RAG、輕量 fine-tuning 開始出現,但仍屬於比較新的探索階段
這條線本身不意外,但作者整理後有兩個訊號很值得記住。
第一,transformer-based 方法之所以成為主流,不只是因為它們比較新,而是因為 CTI 文字本來就高度語境化。同一句話裡的技術名詞、工具名稱、敘述方式,常常要靠上下文才能判斷它是在描述攻擊行為、產品能力、背景知識,還是 analyst commentary。傳統關鍵字或淺層特徵模型,碰到這種文本很容易失真。
第二,LLM 的確開始進場,但目前還談不上已經把這個領域徹底改寫。作者的描述很克制:LLM adoption 是 emergent 的,意思不是沒潛力,而是現在多數工作仍在早期探索,很多結果還停留在 proof-of-concept,距離可穩定比較、可大規模部署、可跨資料集驗證,還差不少補課。
這篇 review 最刺的地方:資料與評估方式太碎,導致很多「高分」其實很難拿來相信
我認為這篇 paper 真正重要的地方,不是它告訴你哪個模型表現比較高,而是它把這個領域最長期、也最常被忽略的結構性問題講得很清楚:資料集太碎、標註太不一致、評估太局部。
作者點出的幾個問題都很致命:
- 很多研究依賴單一資料集,而且資料來源狹窄
- 不少任務設計過度簡化,例如單標籤分類,無法反映真實 CTI 文字常見的一段對應多個 technique
- evaluation settings 有限,缺少跨資料來源、跨 domain、跨時間的 generalization 檢驗
- 公開 artifact 不足,包含資料集、程式碼、標註流程都常不完整
這幾點疊在一起的後果,就是:你看到的是一堆 paper 各自在自己的小盒子裡做得不錯,但很難確認誰真的能離開實驗室,在新的 CTI 語料上繼續站得住。
尤其在 CTI 這種高度異質的領域,這個問題會被放大。因為真實世界資料可能來自:
- 廠商 threat report
- incident report
- blog、news、advisory
- vulnerability disclosure
- forum、social media、甚至地下社群內容
如果模型只在某一類乾淨、標註過、範圍有限的文字上得高分,那它更像是dataset specialist,不一定是能上真實 CTI 生產線的系統。
作者的方法很紮實,因為它不是隨便挑幾篇,而是真的把研究地圖拉出來
這篇 review 的可信度,來自它的整理不是憑感覺。作者做的是比較標準的系統性文獻回顧流程:
- 從 IEEE Xplore、ACM Digital Library、ScienceDirect、SpringerLink、ACL 五個資料庫搜尋
- 時間範圍抓 2015 到 2025 年 6 月
- 初步搜尋得到 3,219 篇 記錄
- 經過去重、篩選、forward / backward snowballing 後,進一步評估
- 最後保留 80 篇 與 TTP extraction 直接相關的同行評審研究
- 兩位作者獨立篩選,Cohen’s kappa = 0.86,代表一致性很高
接著,作者再用 open coding 去整理這些研究,歸納出多個維度: extraction purpose、data source、dataset collection / preprocessing、annotation / construction、methodology、metrics、artifact availability 等。
換句話說,這篇 paper 最有用的地方,不只是「讀過很多篇」,而是它把這個研究領域拆成一個可比較的地圖。這對做研究的人很重要,因為它讓你知道自己是在補空白,還是在重複做一個別人已經做過很多次、只是資料集換了名字的題目。
為什麼 reproducibility 會是這篇 paper 的重點?因為 CTI extraction 最怕的不是做不出來,而是沒人能確認你真的做到了
這篇 review 一再碰到的痛點,是 reproducibility。很多研究使用 proprietary dataset、受限語料、沒有完整公開標註流程,或只釋出部分程式碼。這在一般 NLP 領域已經是問題,在 CTI 領域更糟,因為:
- 資料本來就常含有版權、敏感資訊或商業限制
- ATT&CK mapping 牽涉標註解釋空間,沒有 guideline 很難重做
- 不同研究會做不同程度的前處理,細節一缺,結果就不能比
所以這篇 paper 其實在提醒研究社群一個不太好聽但很必要的現實:如果你的 TTP extraction 系統只有你自己那份不公開語料能跑得漂亮,那它對整個領域的累積價值其實有限。
這也正是為什麼安全領域需要更多公開 benchmark、清楚標註協議、跨資料集測試,以及更貼近 analyst workflow 的評估方式。否則我們就會一直重複一個很熟悉的循環:每一篇 paper 都說自己 improve state of the art,但整個領域卻很難真正往前建立共同基準。
我怎麼看這篇論文?它不是在告訴你哪個模型最強,而是在提醒你整個問題其實還沒被定義完整
我很喜歡這篇 paper 的地方,在於它沒有把 TTP extraction 過度浪漫化。它沒有說「LLM 來了所以快解完了」,也沒有用幾個漂亮案例就假裝這條線已經成熟。相反地,它把事情講得很務實:
這個領域確實在進步,但目前多數成果仍集中在比較容易量化、比較容易發表的任務切片上,而不是完整覆蓋真實 CTI 分析工作的複雜度。
這句話其實很重要。因為如果你今天在做 SOC、threat hunting、CTI knowledge graph、ATT&CK mapping pipeline,這篇 paper 會提醒你:不要把「模型能抽 technique label」誤認成「系統已經理解 adversary tradecraft」。
兩者之間差很遠。前者是分類任務,後者是分析能力。前者可能在乾淨 benchmark 上很好看,後者則牽涉語境、證據強度、跨文件整合、歧義處理、時間序列、行動鏈還原,甚至 analyst 最後願不願意信它。
對 CTI / AI 實務最重要的 takeaway
如果把這篇和最近一串 CTI / agentic security / benchmark paper 放在一起看,我覺得它給實務界至少四個很硬的提醒:
- 不要把 TTP extraction 縮成單一分類題:真實需求是 procedure、sequence、context 與 evidence 的組合
- 不要迷信單資料集高分:跨來源、跨語域、跨時間的 generalization 才更接近實戰
- 不要忽略資料與標註治理:沒有公開、可重做的資料流程,就很難建立可信基準
- 不要把 LLM 當成自動解法終點:它是新工具,但不是自動消除 ontology ambiguity 與 evaluation debt 的魔法
如果再說得更直白一點,這篇 paper 的核心訊息其實是:
CTI 自動化最難的,不是把文字送進模型,而是先誠實面對我們到底想從文字裡抽出什麼、如何定義對、以及怎麼證明它不是只在自己那份資料上看起來很會。
而這也是我認為 What Are Adversaries Doing? 值得被讀的一點。它沒有提供一個立刻可 deploy 的新框架,但它幫整個領域照了鏡子:我們現在已經會做一些事,但距離真正讓 TTP extraction 成為可靠 CTI 基礎設施,還有不少方法論債要還。
對研究者來說,這篇是 roadmap;對實務人員來說,這篇則是一句很好的提醒:當你看到任何號稱自動化 ATT&CK mapping 的系統時,先不要只問它 F1 多高,先問它是不是只會在一份熟悉資料集上把 adversary 壓成單一標籤。
本文由 AI 產生、整理與撰寫
