論文閱讀分析：用多模態特徵融合與圖注意力做 APT 行動者歸因

2026 年 4 月 6 日

論文基本資訊

論文標題：APT-MMF: An advanced persistent threat actor attribution method based on multimodal and multilevel feature fusion
作者：Nan Xiao、Bo Lang、Ting Wang、Yikai Chen
期刊：Computers & Security
年份：2024
arXiv：https://arxiv.org/abs/2402.12743
出版頁面：https://www.sciencedirect.com/science/article/pii/S0167404824002657

APT-MMF 是一篇聚焦於 APT 行動者歸因 的技術型論文。作者要處理的問題很明確：當一份 Cyber Threat Intelligence（CTI） 報告中包含 IOC、戰術技術、惡意基礎設施與多種分析資訊時，是否能透過更完整的特徵融合方式，判斷這份報告最可能對應到哪一個 APT 組織或威脅行動者。

這篇論文的重點，不是只把 CTI 當成一段文字做分類，而是把報告與 IOC 一起建模成 heterogeneous attributed graph，再結合 多模態特徵融合 與 多層次圖注意力機制，提升威脅行動者歸因的效果。從結果來看，作者提出的 APT-MMF 在多個 baseline 之上取得了最佳表現。

研究問題：這篇論文想解決什麼？

APT 歸因一直是資安領域中難度很高的任務。原因在於，攻擊者往往會刻意隱藏痕跡、重複使用既有工具，甚至使用誤導策略來干擾研判。單憑某一個 malware family、某一個 IP，或單一 ATT&CK technique，通常不足以支撐可靠的歸因。

作者將既有方法的問題整理得很清楚。現有 CTI-based APT attribution 方法大致有三種常見做法：

只使用 tactic / technique features
只使用文字特徵
只使用 homogeneous topological features

這些方法的共同限制是：沒有把 CTI 的異質性，以及 IOC 的屬性、關聯與上下文整體納入。而作者認為，IOC 才是 CTI 的核心，若忽略 IOC 的 type、attribute 與 relation，模型就無法真正掌握歸因訊號。

方法概觀：APT-MMF 的整體架構

APT-MMF 的核心方法可以拆成兩個主要部分：

Multimodal node feature extraction layer
Multilevel report feature learning layer

整體流程如下：

APT reports + IOC entities + IOC relations
        ↓
Construct heterogeneous attributed graph
        ↓
Extract multimodal node features
  1. attribute type features
  2. natural language text features
  3. topological relationship features
        ↓
Feature-level fusion by concatenation
        ↓
Apply multilevel heterogeneous graph attention
  1. IOC type-level attention
  2. metapath-based neighbor node-level attention
  3. metapath semantic-level attention
        ↓
Learn deep hidden features of report nodes
        ↓
Fully connected layer
        ↓
Threat actor classification

從這個流程可以看出，作者不是把 APT report 當成一般文字分類，而是把報告與 IOC 一起建模成 heterogeneous attributed graph，再從節點屬性、語意與圖結構中抽取歸因訊號。

圖模型設計：Heterogeneous Attributed Graph Schema

這篇論文的一大重點，是作者為 APT 行動者歸因設計了一個專屬的 heterogeneous attributed graph schema。

作者在圖中選用了 11 種 IOC types：

malware
tactics
techniques
vulnerabilities
IPs
domains
URLs
filenames
file paths
registries
emails

這些 IOC 節點不是空的，它們還帶有屬性。例如：

Malware：hash、avclass_BEH、avclass_CLASS、avclass_FAM、imphash、pe-resource、tags 等
Tactics / Techniques：ATT&CK_ID、name、description，technique 還有 associated_tactic
Vulnerabilities：CVE_ID、description
IP：geolocation
Domain：malicious category

關係類型則包括：

Inclusion：report 與 IOC 的包含關係
Resolution：IP 與 domain 的解析關係
Association：malware 與 IP / domain 的關聯
Homology：malware 與 malware 的同源關係

這樣的設計讓 CTI 裡原本零散的資訊，被整合到一個可被圖模型利用的結構中。

三種模態特徵：作者如何做 Multimodal Feature Fusion？

APT-MMF 的第一個技術核心，是把節點特徵拆成三種模態：

Attribute type features
Natural language text features
Topological relationship features

1. Attribute Type Features

這類特徵用來表示節點屬性的類型資訊。作者設計了 64 維的 attribute type features，涵蓋 node type、domain malicious category、IP geolocation、malware attributes，以及 ATT&CK ID、CVE ID、IP address 這些 ID-like attributes。

作者對不同 attribute 做了不同編碼：

ID-like attributes：依照固定格式做規則化編碼
一般 categorical attributes：使用 ordinal encoding，而不是 one-hot

例如：

ATT&CK ID 編成 11 維
IPv4 address 編成 12 維
CVE ID 編成 9 維

這是一種相當務實的 feature engineering。作者沒有把所有欄位都直接丟給深度模型，而是根據 CTI 欄位本身的格式做設計。

2. Natural Language Text Features

第二種特徵是節點屬性中的自然語言內容。作者使用的是 BERT，最後輸出 64 維文字語意特徵。

相較於 bag-of-words 或 Word2Vec，BERT 能更有效捕捉 CTI 報告中的語意上下文，補足舊方法在語意表達上的限制。

3. Topological Relationship Features

第三種模態是拓樸關係特徵。作者利用 Node2vec 抽取 128 維圖結構特徵，用來表示節點在異質圖中的關係位置與結構模式。

4. Feature Fusion

這三種特徵最後採用最直接的方式融合：concatenation。作者以 feature-level fusion 將這三種模態串接成完整的 node representation。

模型核心：Multilevel Heterogeneous Graph Attention Networks

真正讓 APT-MMF 與既有方法拉開距離的，是它的 multilevel heterogeneous graph attention networks。作者設計了三層注意力機制：

IOC type-level attention
Metapath-based neighbor node-level attention
Metapath semantic-level attention

IOC Type-Level Attention

這一層 attention 是整篇論文最重要的亮點之一。原因在於：APT report node 本身是 attributeless 的，也就是 report 節點自己沒有足夠的屬性訊息，必須從它周圍連到的 IOC 節點補回來。

因此，這一層 attention 實際上在回答：

對某一份 report 而言，哪一種 IOC 類型更重要？

模型會學習不同 IOC types 的相對重要性，用來補足 report node 的 sparse features。

Metapath-Based Neighbor Node-Level Attention

第二層 attention 建立在 metapath 上。作者設計多條 metapath，讓一份 report 能沿著某種語意路徑連到其他 report。

例如：

Report - Domain - Report

表示兩份報告共享同一個 domain。

這一層 attention 要學的是：

在同一條 metapath 下，哪一個相鄰 report 對當前歸因更有幫助？

Metapath Semantic-Level Attention

第三層則是在不同 metapath 之間再做加權。因為不是每條 metapath 的語意價值都相同。

例如：

Report-Malware-Report
Report-Domain-Report

對威脅行動者歸因的意義就可能不同。

因此這一層 attention 學的是：

哪一條 metapath 本身最具有歸因價值？

三層 attention 加總起來，分別對應三個不同層次的判斷：

哪種 IOC 比較重要
哪個鄰近 report 比較重要
哪條語意路徑比較重要

公式與評估方式

這篇論文的方法部分在第 3.4 節使用式 (1) 到式 (6) 描述 triple attention 下的特徵聚合過程。閱讀這些公式時，重點不在繁複推導，而在於理解：作者用三層 attention，把多模態節點表示逐步聚合成 report node 的 deep hidden representation。

在評估上，作者使用的是 Micro-F1 與 Macro-F1。其中：

Micro-F1 = 2 × Precision × Recall / (Precision + Recall)

而：

Precision = Σ TP_t / (Σ TP_t + Σ FP_t)
Recall    = Σ TP_t / (Σ TP_t + Σ FN_t)

Macro-F1 則是針對每個 label 的 F1 取平均：

Macro-F1 = (1 / |L|) × Σ_t [ 2 × Precision_t × Recall_t / (Precision_t + Recall_t) ]

作者同時使用這兩種指標，代表他不只在意整體效果，也在意不同 APT group 之間的平衡表現。

資料集建構：作者自行建立了一個 Heterogeneous Graph Dataset

作者不是拿現成 benchmark 直接套模型，而是自行建立了一個 heterogeneous attributed graph dataset。

資料處理流程包括：

蒐集 APT CTI reports
entity extraction
entity cleaning
entity attribute expansion
entity relationship expansion

作者在 entity extraction 中使用：

TRAM：將 tactic / technique 映射到 ATT&CK
IOC-Finder：抽取 IP、domain、URL 等 IOC

在資料清理上，作者特別處理了最容易混入 benign data 的三種實體：

IPs
domains
URLs

再搭配 VirusTotal、Avclass2、ATT&CK、CVE 等資料來源補齊屬性與關聯。

最終建出的資料集規模為：

24,694 個 nodes
40,335 個 relationships

其中從 APT reports 直接抽出的節點有 15,540 個，其餘來自 VirusTotal 擴充。資料切分方式則是每個 APT group 按照 8:1:1 切成 training / validation / test。

實驗結果：APT-MMF 的表現如何？

作者在 Table 5 中比較了傳統機器學習模型與多種 GNN baseline，結果如下：

Naïve Bayes：Micro-F1 0.4379 / Macro-F1 0.3972
KNN：0.4598 / 0.3367
Decision Tree：0.4744 / 0.2707
SVM：0.5401 / 0.3825
Random Forest：0.6788 / 0.5540
XGBoost：0.7372 / 0.5929
MLP：0.7445 / 0.4869
GCN：0.7518 / 0.5693
GAT：0.7737 / 0.6641
HAN：0.7810 / 0.6838
HGNN-AC：0.8029 / 0.6871
APT-MMF（ours）：0.8321 / 0.7051

從這個結果可以看出，APT-MMF 在所有比較方法中表現最佳。作者也指出，與最好的傳統 baseline MLP 相比：

Micro-F1 提升 8.76%
Macro-F1 提升 11.82%

若只看 GNN 類 baseline，APT-MMF 也優於 HAN 與 HGNN-AC。

三組 Ablation：論文如何證明設計真的有效？

1. Multimodal Features 的效果

作者在 Table 6 中依序加入不同模態特徵：

只用 MAT：0.4672 / 0.2775
MAT + OAT：0.5912 / 0.4105
MAT + OAT + NLT：0.7518 / 0.6189
MAT + OAT + NLT + TR：0.8321 / 0.7051

這個結果說明：attribute、text、topology 三種模態確實彼此互補。

2. Triple Attention 的效果

Table 7 顯示：

只用 metapath-based neighbor node-level：0.7445 / 0.5868
加 metapath semantic-level：0.7810 / 0.6838
再加 IOC type-level：0.8321 / 0.7051

其中最值得注意的是，IOC type-level attention 的加入帶來了顯著提升，這也呼應作者的主張：report node 沒有屬性，因此從 IOC type 補訊息非常關鍵。

3. Metapath 的效果

作者設計了 20 條 metapath，並分成 first / second / third / fourth-order 逐步加入：

First order：0.7956 / 0.6919
First + Second：0.8029 / 0.6928
First + Second + Third：0.8102 / 0.6997
First + Second + Third + Fourth：0.8321 / 0.7051

這表示 metapath 設計不是裝飾，而是真的能逐步補強歸因表現。

可解釋性分析：模型在注意什麼？

這篇論文還做了相當有價值的 explanatory analysis。作者以 Lazarus 相關的報告 R562 為例，分析 triple attention 的權重分布。

R562 這份報告中包含：

55 個 malware nodes
44 個 URL nodes
30 個 domain nodes
30 個 technique nodes
7 個 filepath nodes
2 個 registry nodes

分析結果顯示：

在 IOC type-level attention 中，domain、URL、malware 權重較高
在 metapath-based neighbor node-level attention 中，不同 report neighbors 的重要性不同
在 metapath semantic-level attention 中，權重較高的 metapath 包括：
- MP2：Report-Malware-Report
- MP13：Report-Malware-Malware-Report
- MP5：Report-Domain-Report

這些結果說明，模型學到的是具體可解釋的歸因訊號，而不是完全不可理解的黑箱分數。

重點整理

APT-MMF 處理的是 CTI-based APT actor attribution。
作者把 CTI 報告與 IOC 建模成 heterogeneous attributed graph。
node features 同時結合 attribute、text、topology 三種模態。
模型的技術核心是 triple attention：IOC type-level、neighbor node-level、metapath semantic-level。
作者自行建立資料集，包含 24,694 nodes 與 40,335 relationships。
APT-MMF 在所有 baseline 中取得最佳結果：Micro-F1 83.21%，Macro-F1 70.51%。
從 ablation 與 explanatory analysis 來看，這個方法不只有效，還有一定程度的可解釋性。

Takeaway

這篇論文最值得記住的一點，是它證明了：APT 行動者歸因不能只依靠單一模態的特徵。IOC 的屬性、文本語意與圖結構，必須被一起建模；而多層次 heterogeneous graph attention，能把這些異質資訊真正融合起來。

若從 CTI 與 AI 交會的角度來看，APT-MMF 是一篇很典型也很完整的例子：它不是把 AI 生硬地套在報告分類上，而是根據 CTI 的資料結構重新設計圖模型、特徵工程與注意力機制，最終把歸因分析往前推進了一步。

免責聲明

本文由 AI 整理與撰寫，內容主要依據公開論文、技術文件與可取得之研究資料進行彙整、解讀與摘要。儘管已盡力確保內容之完整性與可讀性，仍可能因模型理解限制、資料來源差異或語意轉譯過程而存在疏漏、不精確或更新延遲之處。本文內容僅供研究交流與知識分享參考，實際技術細節、實驗設定與最終結論，仍應以原始論文、官方文件及作者公開資料為準。

論文閱讀分析：用多模態特徵融合與圖注意力做 APT 行動者歸因

論文基本資訊

研究問題：這篇論文想解決什麼？

方法概觀：APT-MMF 的整體架構

圖模型設計：Heterogeneous Attributed Graph Schema

三種模態特徵：作者如何做 Multimodal Feature Fusion？

1. Attribute Type Features

2. Natural Language Text Features

3. Topological Relationship Features

4. Feature Fusion

模型核心：Multilevel Heterogeneous Graph Attention Networks

IOC Type-Level Attention

Metapath-Based Neighbor Node-Level Attention

Metapath Semantic-Level Attention

公式與評估方式

資料集建構：作者自行建立了一個 Heterogeneous Graph Dataset

實驗結果：APT-MMF 的表現如何？

三組 Ablation：論文如何證明設計真的有效？

1. Multimodal Features 的效果

2. Triple Attention 的效果

3. Metapath 的效果

可解釋性分析：模型在注意什麼？

重點整理

Takeaway

免責聲明

發佈留言取消回覆

You may also like

近期文章

廣告

文章分類

近期留言

論文基本資訊

研究問題：這篇論文想解決什麼？

方法概觀：APT-MMF 的整體架構

圖模型設計：Heterogeneous Attributed Graph Schema

三種模態特徵：作者如何做 Multimodal Feature Fusion？

1. Attribute Type Features

2. Natural Language Text Features

3. Topological Relationship Features

4. Feature Fusion

模型核心：Multilevel Heterogeneous Graph Attention Networks

IOC Type-Level Attention

Metapath-Based Neighbor Node-Level Attention

Metapath Semantic-Level Attention

公式與評估方式

資料集建構：作者自行建立了一個 Heterogeneous Graph Dataset

實驗結果：APT-MMF 的表現如何？

三組 Ablation：論文如何證明設計真的有效？

1. Multimodal Features 的效果

2. Triple Attention 的效果

3. Metapath 的效果

可解釋性分析：模型在注意什麼？

重點整理

Takeaway

免責聲明

發佈留言 取消回覆

You may also like

碩士學位交戰守則：在有限的年歲裡，學會打一場像樣的仗

SecLens-R 論文閱讀分析：當漏洞檢測模型看起來都很強，你真正缺的其實不是排行榜，而是選型視角

近期文章

廣告

文章分類

近期留言

發佈留言取消回覆