論文閱讀分析:用多模態特徵融合與圖注意力做 APT 行動者歸因
論文基本資訊
- 論文標題:APT-MMF: An advanced persistent threat actor attribution method based on multimodal and multilevel feature fusion
- 作者:Nan Xiao、Bo Lang、Ting Wang、Yikai Chen
- 期刊:Computers & Security
- 年份:2024
- arXiv:https://arxiv.org/abs/2402.12743
- 出版頁面:https://www.sciencedirect.com/science/article/pii/S0167404824002657
APT-MMF 是一篇聚焦於 APT 行動者歸因 的技術型論文。作者要處理的問題很明確:當一份 Cyber Threat Intelligence(CTI) 報告中包含 IOC、戰術技術、惡意基礎設施與多種分析資訊時,是否能透過更完整的特徵融合方式,判斷這份報告最可能對應到哪一個 APT 組織或威脅行動者。
這篇論文的重點,不是只把 CTI 當成一段文字做分類,而是把報告與 IOC 一起建模成 heterogeneous attributed graph,再結合 多模態特徵融合 與 多層次圖注意力機制,提升威脅行動者歸因的效果。從結果來看,作者提出的 APT-MMF 在多個 baseline 之上取得了最佳表現。
研究問題:這篇論文想解決什麼?
APT 歸因一直是資安領域中難度很高的任務。原因在於,攻擊者往往會刻意隱藏痕跡、重複使用既有工具,甚至使用誤導策略來干擾研判。單憑某一個 malware family、某一個 IP,或單一 ATT&CK technique,通常不足以支撐可靠的歸因。
作者將既有方法的問題整理得很清楚。現有 CTI-based APT attribution 方法大致有三種常見做法:
- 只使用 tactic / technique features
- 只使用文字特徵
- 只使用 homogeneous topological features
這些方法的共同限制是:沒有把 CTI 的異質性,以及 IOC 的屬性、關聯與上下文整體納入。而作者認為,IOC 才是 CTI 的核心,若忽略 IOC 的 type、attribute 與 relation,模型就無法真正掌握歸因訊號。
方法概觀:APT-MMF 的整體架構
APT-MMF 的核心方法可以拆成兩個主要部分:
- Multimodal node feature extraction layer
- Multilevel report feature learning layer
整體流程如下:
APT reports + IOC entities + IOC relations
↓
Construct heterogeneous attributed graph
↓
Extract multimodal node features
1. attribute type features
2. natural language text features
3. topological relationship features
↓
Feature-level fusion by concatenation
↓
Apply multilevel heterogeneous graph attention
1. IOC type-level attention
2. metapath-based neighbor node-level attention
3. metapath semantic-level attention
↓
Learn deep hidden features of report nodes
↓
Fully connected layer
↓
Threat actor classification
從這個流程可以看出,作者不是把 APT report 當成一般文字分類,而是把報告與 IOC 一起建模成 heterogeneous attributed graph,再從節點屬性、語意與圖結構中抽取歸因訊號。
圖模型設計:Heterogeneous Attributed Graph Schema
這篇論文的一大重點,是作者為 APT 行動者歸因設計了一個專屬的 heterogeneous attributed graph schema。
作者在圖中選用了 11 種 IOC types:
- malware
- tactics
- techniques
- vulnerabilities
- IPs
- domains
- URLs
- filenames
- file paths
- registries
- emails
這些 IOC 節點不是空的,它們還帶有屬性。例如:
- Malware:hash、avclass_BEH、avclass_CLASS、avclass_FAM、imphash、pe-resource、tags 等
- Tactics / Techniques:ATT&CK_ID、name、description,technique 還有 associated_tactic
- Vulnerabilities:CVE_ID、description
- IP:geolocation
- Domain:malicious category
關係類型則包括:
- Inclusion:report 與 IOC 的包含關係
- Resolution:IP 與 domain 的解析關係
- Association:malware 與 IP / domain 的關聯
- Homology:malware 與 malware 的同源關係
這樣的設計讓 CTI 裡原本零散的資訊,被整合到一個可被圖模型利用的結構中。
三種模態特徵:作者如何做 Multimodal Feature Fusion?
APT-MMF 的第一個技術核心,是把節點特徵拆成三種模態:
- Attribute type features
- Natural language text features
- Topological relationship features
1. Attribute Type Features
這類特徵用來表示節點屬性的類型資訊。作者設計了 64 維的 attribute type features,涵蓋 node type、domain malicious category、IP geolocation、malware attributes,以及 ATT&CK ID、CVE ID、IP address 這些 ID-like attributes。
作者對不同 attribute 做了不同編碼:
- ID-like attributes:依照固定格式做規則化編碼
- 一般 categorical attributes:使用 ordinal encoding,而不是 one-hot
例如:
- ATT&CK ID 編成 11 維
- IPv4 address 編成 12 維
- CVE ID 編成 9 維
這是一種相當務實的 feature engineering。作者沒有把所有欄位都直接丟給深度模型,而是根據 CTI 欄位本身的格式做設計。
2. Natural Language Text Features
第二種特徵是節點屬性中的自然語言內容。作者使用的是 BERT,最後輸出 64 維文字語意特徵。
相較於 bag-of-words 或 Word2Vec,BERT 能更有效捕捉 CTI 報告中的語意上下文,補足舊方法在語意表達上的限制。
3. Topological Relationship Features
第三種模態是拓樸關係特徵。作者利用 Node2vec 抽取 128 維圖結構特徵,用來表示節點在異質圖中的關係位置與結構模式。
4. Feature Fusion
這三種特徵最後採用最直接的方式融合:concatenation。作者以 feature-level fusion 將這三種模態串接成完整的 node representation。
模型核心:Multilevel Heterogeneous Graph Attention Networks
真正讓 APT-MMF 與既有方法拉開距離的,是它的 multilevel heterogeneous graph attention networks。作者設計了三層注意力機制:
- IOC type-level attention
- Metapath-based neighbor node-level attention
- Metapath semantic-level attention
IOC Type-Level Attention
這一層 attention 是整篇論文最重要的亮點之一。原因在於:APT report node 本身是 attributeless 的,也就是 report 節點自己沒有足夠的屬性訊息,必須從它周圍連到的 IOC 節點補回來。
因此,這一層 attention 實際上在回答:
對某一份 report 而言,哪一種 IOC 類型更重要?
模型會學習不同 IOC types 的相對重要性,用來補足 report node 的 sparse features。
Metapath-Based Neighbor Node-Level Attention
第二層 attention 建立在 metapath 上。作者設計多條 metapath,讓一份 report 能沿著某種語意路徑連到其他 report。
例如:
Report - Domain - Report
表示兩份報告共享同一個 domain。
這一層 attention 要學的是:
在同一條 metapath 下,哪一個相鄰 report 對當前歸因更有幫助?
Metapath Semantic-Level Attention
第三層則是在不同 metapath 之間再做加權。因為不是每條 metapath 的語意價值都相同。
例如:
- Report-Malware-Report
- Report-Domain-Report
對威脅行動者歸因的意義就可能不同。
因此這一層 attention 學的是:
哪一條 metapath 本身最具有歸因價值?
三層 attention 加總起來,分別對應三個不同層次的判斷:
- 哪種 IOC 比較重要
- 哪個鄰近 report 比較重要
- 哪條語意路徑比較重要
公式與評估方式
這篇論文的方法部分在第 3.4 節使用式 (1) 到式 (6) 描述 triple attention 下的特徵聚合過程。閱讀這些公式時,重點不在繁複推導,而在於理解:作者用三層 attention,把多模態節點表示逐步聚合成 report node 的 deep hidden representation。
在評估上,作者使用的是 Micro-F1 與 Macro-F1。其中:
Micro-F1 = 2 × Precision × Recall / (Precision + Recall)
而:
Precision = Σ TP_t / (Σ TP_t + Σ FP_t)
Recall = Σ TP_t / (Σ TP_t + Σ FN_t)
Macro-F1 則是針對每個 label 的 F1 取平均:
Macro-F1 = (1 / |L|) × Σ_t [ 2 × Precision_t × Recall_t / (Precision_t + Recall_t) ]
作者同時使用這兩種指標,代表他不只在意整體效果,也在意不同 APT group 之間的平衡表現。
資料集建構:作者自行建立了一個 Heterogeneous Graph Dataset
作者不是拿現成 benchmark 直接套模型,而是自行建立了一個 heterogeneous attributed graph dataset。
資料處理流程包括:
- 蒐集 APT CTI reports
- entity extraction
- entity cleaning
- entity attribute expansion
- entity relationship expansion
作者在 entity extraction 中使用:
- TRAM:將 tactic / technique 映射到 ATT&CK
- IOC-Finder:抽取 IP、domain、URL 等 IOC
在資料清理上,作者特別處理了最容易混入 benign data 的三種實體:
- IPs
- domains
- URLs
再搭配 VirusTotal、Avclass2、ATT&CK、CVE 等資料來源補齊屬性與關聯。
最終建出的資料集規模為:
- 24,694 個 nodes
- 40,335 個 relationships
其中從 APT reports 直接抽出的節點有 15,540 個,其餘來自 VirusTotal 擴充。資料切分方式則是每個 APT group 按照 8:1:1 切成 training / validation / test。
實驗結果:APT-MMF 的表現如何?
作者在 Table 5 中比較了傳統機器學習模型與多種 GNN baseline,結果如下:
- Naïve Bayes:Micro-F1 0.4379 / Macro-F1 0.3972
- KNN:0.4598 / 0.3367
- Decision Tree:0.4744 / 0.2707
- SVM:0.5401 / 0.3825
- Random Forest:0.6788 / 0.5540
- XGBoost:0.7372 / 0.5929
- MLP:0.7445 / 0.4869
- GCN:0.7518 / 0.5693
- GAT:0.7737 / 0.6641
- HAN:0.7810 / 0.6838
- HGNN-AC:0.8029 / 0.6871
- APT-MMF(ours):0.8321 / 0.7051
從這個結果可以看出,APT-MMF 在所有比較方法中表現最佳。作者也指出,與最好的傳統 baseline MLP 相比:
- Micro-F1 提升 8.76%
- Macro-F1 提升 11.82%
若只看 GNN 類 baseline,APT-MMF 也優於 HAN 與 HGNN-AC。
三組 Ablation:論文如何證明設計真的有效?
1. Multimodal Features 的效果
作者在 Table 6 中依序加入不同模態特徵:
- 只用 MAT:0.4672 / 0.2775
- MAT + OAT:0.5912 / 0.4105
- MAT + OAT + NLT:0.7518 / 0.6189
- MAT + OAT + NLT + TR:0.8321 / 0.7051
這個結果說明:attribute、text、topology 三種模態確實彼此互補。
2. Triple Attention 的效果
Table 7 顯示:
- 只用 metapath-based neighbor node-level:0.7445 / 0.5868
- 加 metapath semantic-level:0.7810 / 0.6838
- 再加 IOC type-level:0.8321 / 0.7051
其中最值得注意的是,IOC type-level attention 的加入帶來了顯著提升,這也呼應作者的主張:report node 沒有屬性,因此從 IOC type 補訊息非常關鍵。
3. Metapath 的效果
作者設計了 20 條 metapath,並分成 first / second / third / fourth-order 逐步加入:
- First order:0.7956 / 0.6919
- First + Second:0.8029 / 0.6928
- First + Second + Third:0.8102 / 0.6997
- First + Second + Third + Fourth:0.8321 / 0.7051
這表示 metapath 設計不是裝飾,而是真的能逐步補強歸因表現。
可解釋性分析:模型在注意什麼?
這篇論文還做了相當有價值的 explanatory analysis。作者以 Lazarus 相關的報告 R562 為例,分析 triple attention 的權重分布。
R562 這份報告中包含:
- 55 個 malware nodes
- 44 個 URL nodes
- 30 個 domain nodes
- 30 個 technique nodes
- 7 個 filepath nodes
- 2 個 registry nodes
分析結果顯示:
- 在 IOC type-level attention 中,domain、URL、malware 權重較高
- 在 metapath-based neighbor node-level attention 中,不同 report neighbors 的重要性不同
- 在 metapath semantic-level attention 中,權重較高的 metapath 包括:
- MP2:Report-Malware-Report
- MP13:Report-Malware-Malware-Report
- MP5:Report-Domain-Report
這些結果說明,模型學到的是具體可解釋的歸因訊號,而不是完全不可理解的黑箱分數。
重點整理
- APT-MMF 處理的是 CTI-based APT actor attribution。
- 作者把 CTI 報告與 IOC 建模成 heterogeneous attributed graph。
- node features 同時結合 attribute、text、topology 三種模態。
- 模型的技術核心是 triple attention:IOC type-level、neighbor node-level、metapath semantic-level。
- 作者自行建立資料集,包含 24,694 nodes 與 40,335 relationships。
- APT-MMF 在所有 baseline 中取得最佳結果:Micro-F1 83.21%,Macro-F1 70.51%。
- 從 ablation 與 explanatory analysis 來看,這個方法不只有效,還有一定程度的可解釋性。
Takeaway
這篇論文最值得記住的一點,是它證明了:APT 行動者歸因不能只依靠單一模態的特徵。IOC 的屬性、文本語意與圖結構,必須被一起建模;而多層次 heterogeneous graph attention,能把這些異質資訊真正融合起來。
若從 CTI 與 AI 交會的角度來看,APT-MMF 是一篇很典型也很完整的例子:它不是把 AI 生硬地套在報告分類上,而是根據 CTI 的資料結構重新設計圖模型、特徵工程與注意力機制,最終把歸因分析往前推進了一步。
免責聲明
本文由 AI 整理與撰寫,內容主要依據公開論文、技術文件與可取得之研究資料進行彙整、解讀與摘要。儘管已盡力確保內容之完整性與可讀性,仍可能因模型理解限制、資料來源差異或語意轉譯過程而存在疏漏、不精確或更新延遲之處。本文內容僅供研究交流與知識分享參考,實際技術細節、實驗設定與最終結論,仍應以原始論文、官方文件及作者公開資料為準。
