論文閱讀分析:用多模態特徵融合與圖注意力做 APT 行動者歸因

論文基本資訊

APT-MMF 是一篇聚焦於 APT 行動者歸因 的技術型論文。作者要處理的問題很明確:當一份 Cyber Threat Intelligence(CTI) 報告中包含 IOC、戰術技術、惡意基礎設施與多種分析資訊時,是否能透過更完整的特徵融合方式,判斷這份報告最可能對應到哪一個 APT 組織或威脅行動者。

這篇論文的重點,不是只把 CTI 當成一段文字做分類,而是把報告與 IOC 一起建模成 heterogeneous attributed graph,再結合 多模態特徵融合多層次圖注意力機制,提升威脅行動者歸因的效果。從結果來看,作者提出的 APT-MMF 在多個 baseline 之上取得了最佳表現。

研究問題:這篇論文想解決什麼?

APT 歸因一直是資安領域中難度很高的任務。原因在於,攻擊者往往會刻意隱藏痕跡、重複使用既有工具,甚至使用誤導策略來干擾研判。單憑某一個 malware family、某一個 IP,或單一 ATT&CK technique,通常不足以支撐可靠的歸因。

作者將既有方法的問題整理得很清楚。現有 CTI-based APT attribution 方法大致有三種常見做法:

  • 只使用 tactic / technique features
  • 只使用文字特徵
  • 只使用 homogeneous topological features

這些方法的共同限制是:沒有把 CTI 的異質性,以及 IOC 的屬性、關聯與上下文整體納入。而作者認為,IOC 才是 CTI 的核心,若忽略 IOC 的 type、attribute 與 relation,模型就無法真正掌握歸因訊號。

方法概觀:APT-MMF 的整體架構

APT-MMF 的核心方法可以拆成兩個主要部分:

  • Multimodal node feature extraction layer
  • Multilevel report feature learning layer

整體流程如下:

APT reports + IOC entities + IOC relations
        ↓
Construct heterogeneous attributed graph
        ↓
Extract multimodal node features
  1. attribute type features
  2. natural language text features
  3. topological relationship features
        ↓
Feature-level fusion by concatenation
        ↓
Apply multilevel heterogeneous graph attention
  1. IOC type-level attention
  2. metapath-based neighbor node-level attention
  3. metapath semantic-level attention
        ↓
Learn deep hidden features of report nodes
        ↓
Fully connected layer
        ↓
Threat actor classification

從這個流程可以看出,作者不是把 APT report 當成一般文字分類,而是把報告與 IOC 一起建模成 heterogeneous attributed graph,再從節點屬性、語意與圖結構中抽取歸因訊號。

圖模型設計:Heterogeneous Attributed Graph Schema

這篇論文的一大重點,是作者為 APT 行動者歸因設計了一個專屬的 heterogeneous attributed graph schema

作者在圖中選用了 11 種 IOC types:

  • malware
  • tactics
  • techniques
  • vulnerabilities
  • IPs
  • domains
  • URLs
  • filenames
  • file paths
  • registries
  • emails

這些 IOC 節點不是空的,它們還帶有屬性。例如:

  • Malware:hash、avclass_BEH、avclass_CLASS、avclass_FAM、imphash、pe-resource、tags 等
  • Tactics / Techniques:ATT&CK_ID、name、description,technique 還有 associated_tactic
  • Vulnerabilities:CVE_ID、description
  • IP:geolocation
  • Domain:malicious category

關係類型則包括:

  • Inclusion:report 與 IOC 的包含關係
  • Resolution:IP 與 domain 的解析關係
  • Association:malware 與 IP / domain 的關聯
  • Homology:malware 與 malware 的同源關係

這樣的設計讓 CTI 裡原本零散的資訊,被整合到一個可被圖模型利用的結構中。

三種模態特徵:作者如何做 Multimodal Feature Fusion?

APT-MMF 的第一個技術核心,是把節點特徵拆成三種模態:

  • Attribute type features
  • Natural language text features
  • Topological relationship features

1. Attribute Type Features

這類特徵用來表示節點屬性的類型資訊。作者設計了 64 維的 attribute type features,涵蓋 node type、domain malicious category、IP geolocation、malware attributes,以及 ATT&CK ID、CVE ID、IP address 這些 ID-like attributes。

作者對不同 attribute 做了不同編碼:

  • ID-like attributes:依照固定格式做規則化編碼
  • 一般 categorical attributes:使用 ordinal encoding,而不是 one-hot

例如:

  • ATT&CK ID 編成 11 維
  • IPv4 address 編成 12 維
  • CVE ID 編成 9 維

這是一種相當務實的 feature engineering。作者沒有把所有欄位都直接丟給深度模型,而是根據 CTI 欄位本身的格式做設計。

2. Natural Language Text Features

第二種特徵是節點屬性中的自然語言內容。作者使用的是 BERT,最後輸出 64 維文字語意特徵。

相較於 bag-of-words 或 Word2Vec,BERT 能更有效捕捉 CTI 報告中的語意上下文,補足舊方法在語意表達上的限制。

3. Topological Relationship Features

第三種模態是拓樸關係特徵。作者利用 Node2vec 抽取 128 維圖結構特徵,用來表示節點在異質圖中的關係位置與結構模式。

4. Feature Fusion

這三種特徵最後採用最直接的方式融合:concatenation。作者以 feature-level fusion 將這三種模態串接成完整的 node representation。

模型核心:Multilevel Heterogeneous Graph Attention Networks

真正讓 APT-MMF 與既有方法拉開距離的,是它的 multilevel heterogeneous graph attention networks。作者設計了三層注意力機制:

  • IOC type-level attention
  • Metapath-based neighbor node-level attention
  • Metapath semantic-level attention

IOC Type-Level Attention

這一層 attention 是整篇論文最重要的亮點之一。原因在於:APT report node 本身是 attributeless 的,也就是 report 節點自己沒有足夠的屬性訊息,必須從它周圍連到的 IOC 節點補回來。

因此,這一層 attention 實際上在回答:

對某一份 report 而言,哪一種 IOC 類型更重要?

模型會學習不同 IOC types 的相對重要性,用來補足 report node 的 sparse features。

Metapath-Based Neighbor Node-Level Attention

第二層 attention 建立在 metapath 上。作者設計多條 metapath,讓一份 report 能沿著某種語意路徑連到其他 report。

例如:

Report - Domain - Report

表示兩份報告共享同一個 domain。

這一層 attention 要學的是:

在同一條 metapath 下,哪一個相鄰 report 對當前歸因更有幫助?

Metapath Semantic-Level Attention

第三層則是在不同 metapath 之間再做加權。因為不是每條 metapath 的語意價值都相同。

例如:

  • Report-Malware-Report
  • Report-Domain-Report

對威脅行動者歸因的意義就可能不同。

因此這一層 attention 學的是:

哪一條 metapath 本身最具有歸因價值?

三層 attention 加總起來,分別對應三個不同層次的判斷:

  • 哪種 IOC 比較重要
  • 哪個鄰近 report 比較重要
  • 哪條語意路徑比較重要

公式與評估方式

這篇論文的方法部分在第 3.4 節使用式 (1) 到式 (6) 描述 triple attention 下的特徵聚合過程。閱讀這些公式時,重點不在繁複推導,而在於理解:作者用三層 attention,把多模態節點表示逐步聚合成 report node 的 deep hidden representation

在評估上,作者使用的是 Micro-F1Macro-F1。其中:

Micro-F1 = 2 × Precision × Recall / (Precision + Recall)

而:

Precision = Σ TP_t / (Σ TP_t + Σ FP_t)
Recall    = Σ TP_t / (Σ TP_t + Σ FN_t)

Macro-F1 則是針對每個 label 的 F1 取平均:

Macro-F1 = (1 / |L|) × Σ_t [ 2 × Precision_t × Recall_t / (Precision_t + Recall_t) ]

作者同時使用這兩種指標,代表他不只在意整體效果,也在意不同 APT group 之間的平衡表現。

資料集建構:作者自行建立了一個 Heterogeneous Graph Dataset

作者不是拿現成 benchmark 直接套模型,而是自行建立了一個 heterogeneous attributed graph dataset。

資料處理流程包括:

  • 蒐集 APT CTI reports
  • entity extraction
  • entity cleaning
  • entity attribute expansion
  • entity relationship expansion

作者在 entity extraction 中使用:

  • TRAM:將 tactic / technique 映射到 ATT&CK
  • IOC-Finder:抽取 IP、domain、URL 等 IOC

在資料清理上,作者特別處理了最容易混入 benign data 的三種實體:

  • IPs
  • domains
  • URLs

再搭配 VirusTotal、Avclass2、ATT&CK、CVE 等資料來源補齊屬性與關聯。

最終建出的資料集規模為:

  • 24,694 個 nodes
  • 40,335 個 relationships

其中從 APT reports 直接抽出的節點有 15,540 個,其餘來自 VirusTotal 擴充。資料切分方式則是每個 APT group 按照 8:1:1 切成 training / validation / test。

實驗結果:APT-MMF 的表現如何?

作者在 Table 5 中比較了傳統機器學習模型與多種 GNN baseline,結果如下:

  • Naïve Bayes:Micro-F1 0.4379 / Macro-F1 0.3972
  • KNN:0.4598 / 0.3367
  • Decision Tree:0.4744 / 0.2707
  • SVM:0.5401 / 0.3825
  • Random Forest:0.6788 / 0.5540
  • XGBoost:0.7372 / 0.5929
  • MLP:0.7445 / 0.4869
  • GCN:0.7518 / 0.5693
  • GAT:0.7737 / 0.6641
  • HAN:0.7810 / 0.6838
  • HGNN-AC:0.8029 / 0.6871
  • APT-MMF(ours):0.8321 / 0.7051

從這個結果可以看出,APT-MMF 在所有比較方法中表現最佳。作者也指出,與最好的傳統 baseline MLP 相比:

  • Micro-F1 提升 8.76%
  • Macro-F1 提升 11.82%

若只看 GNN 類 baseline,APT-MMF 也優於 HAN 與 HGNN-AC。

三組 Ablation:論文如何證明設計真的有效?

1. Multimodal Features 的效果

作者在 Table 6 中依序加入不同模態特徵:

  • 只用 MAT:0.4672 / 0.2775
  • MAT + OAT:0.5912 / 0.4105
  • MAT + OAT + NLT:0.7518 / 0.6189
  • MAT + OAT + NLT + TR:0.8321 / 0.7051

這個結果說明:attribute、text、topology 三種模態確實彼此互補

2. Triple Attention 的效果

Table 7 顯示:

  • 只用 metapath-based neighbor node-level:0.7445 / 0.5868
  • 加 metapath semantic-level:0.7810 / 0.6838
  • 再加 IOC type-level:0.8321 / 0.7051

其中最值得注意的是,IOC type-level attention 的加入帶來了顯著提升,這也呼應作者的主張:report node 沒有屬性,因此從 IOC type 補訊息非常關鍵。

3. Metapath 的效果

作者設計了 20 條 metapath,並分成 first / second / third / fourth-order 逐步加入:

  • First order:0.7956 / 0.6919
  • First + Second:0.8029 / 0.6928
  • First + Second + Third:0.8102 / 0.6997
  • First + Second + Third + Fourth:0.8321 / 0.7051

這表示 metapath 設計不是裝飾,而是真的能逐步補強歸因表現。

可解釋性分析:模型在注意什麼?

這篇論文還做了相當有價值的 explanatory analysis。作者以 Lazarus 相關的報告 R562 為例,分析 triple attention 的權重分布。

R562 這份報告中包含:

  • 55 個 malware nodes
  • 44 個 URL nodes
  • 30 個 domain nodes
  • 30 個 technique nodes
  • 7 個 filepath nodes
  • 2 個 registry nodes

分析結果顯示:

  • IOC type-level attention 中,domain、URL、malware 權重較高
  • metapath-based neighbor node-level attention 中,不同 report neighbors 的重要性不同
  • metapath semantic-level attention 中,權重較高的 metapath 包括:
    • MP2:Report-Malware-Report
    • MP13:Report-Malware-Malware-Report
    • MP5:Report-Domain-Report

這些結果說明,模型學到的是具體可解釋的歸因訊號,而不是完全不可理解的黑箱分數。

重點整理

  • APT-MMF 處理的是 CTI-based APT actor attribution
  • 作者把 CTI 報告與 IOC 建模成 heterogeneous attributed graph
  • node features 同時結合 attribute、text、topology 三種模態。
  • 模型的技術核心是 triple attention:IOC type-level、neighbor node-level、metapath semantic-level。
  • 作者自行建立資料集,包含 24,694 nodes40,335 relationships
  • APT-MMF 在所有 baseline 中取得最佳結果:Micro-F1 83.21%,Macro-F1 70.51%
  • 從 ablation 與 explanatory analysis 來看,這個方法不只有效,還有一定程度的可解釋性。

Takeaway

這篇論文最值得記住的一點,是它證明了:APT 行動者歸因不能只依靠單一模態的特徵。IOC 的屬性、文本語意與圖結構,必須被一起建模;而多層次 heterogeneous graph attention,能把這些異質資訊真正融合起來。

若從 CTI 與 AI 交會的角度來看,APT-MMF 是一篇很典型也很完整的例子:它不是把 AI 生硬地套在報告分類上,而是根據 CTI 的資料結構重新設計圖模型、特徵工程與注意力機制,最終把歸因分析往前推進了一步。

免責聲明

本文由 AI 整理與撰寫,內容主要依據公開論文、技術文件與可取得之研究資料進行彙整、解讀與摘要。儘管已盡力確保內容之完整性與可讀性,仍可能因模型理解限制、資料來源差異或語意轉譯過程而存在疏漏、不精確或更新延遲之處。本文內容僅供研究交流與知識分享參考,實際技術細節、實驗設定與最終結論,仍應以原始論文、官方文件及作者公開資料為準。

You may also like