論文閱讀分析:用異質圖神經網路與情境化威脅情資做 APT 行動者歸因
論文基本資訊
- 論文標題:APT Attribution Using Heterogeneous Graph Neural Networks with Contextual Threat Intelligence
- 期刊:Electronics
- 年份:2025
- 論文頁面:https://www.mdpi.com/2079-9292/14/23/4597
APT Attribution Using Heterogeneous Graph Neural Networks with Contextual Threat Intelligence 這篇論文延續了近年 CTI 與圖神經網路交會的研究方向,核心問題同樣是 APT 行動者歸因:當防禦方蒐集到一組與攻擊活動相關的技術特徵、TTP 與脈絡化情資後,是否能透過圖模型更準確地判斷其背後對應的 APT 組織。
這篇研究的特點,在於它不是直接沿用一般的圖結構或靜態 CTI profile,而是將 Cyber Kill Chain(CKC) 與 情境化威脅情資 一起納入 heterogeneous graph 架構中,讓模型不只看技術本身,也同時考慮技術所處的攻擊生命週期位置。作者主張,這樣的設計能減少不同 APT 組織因使用相似技術而被混淆的問題。
研究問題:這篇論文想改善什麼?
APT 歸因之所以困難,不只是因為攻擊者會偽裝與重複利用工具,也因為許多組織在技術層面上會出現高度重疊。若模型只看 technique 是否出現,而不看 technique 出現在攻擊流程的哪個階段,就可能把本來應該分開的行為混成一類。
作者整理既有方法後指出,先前研究大致有幾種限制:
- 依賴靜態 artefact 或固定特徵表示,難以適應新 TTP 與新攻擊脈絡
- 只做 profile matching,而非真正的關係學習
- 雖然使用 knowledge graph 或 heterogeneous GNN,但缺少 attack lifecycle 的程序語意
- sequence-based 模型雖然考慮順序,卻沒有明確建模 CKC 階段意義
因此,這篇論文要回答的核心問題是:若把 APT、TTP 與 Cyber Kill Chain stage 一起建成異質圖,並引入語意嵌入與圖神經網路推理,是否能提升 APT attribution 的準確度與可解釋性?
方法概觀:這篇論文怎麼做?
作者提出的方法可概括為三個步驟:
- Feature Extraction:從 APTNotes 報告中抽取 APT、TTP 與對應 CKC 階段
- Graph Construction:建立 APT–TTP–CKC 的 tripartite heterogeneous graph
- Classification:利用異質圖神經網路進行 actor-level attribution
整體流程可以整理成:
APTNotes CTI reports
↓
NLP extraction of APT groups and TTPs
↓
Map TTPs to MITRE ATT&CK and CKC stages
↓
Generate contextual TTP embeddings
↓
Construct APT–TTP–CKC tripartite graph
↓
Apply heterogeneous GNN-based message passing
↓
APT actor attribution
這個流程的關鍵,在於作者不只把技術描述向量化,也把技術所對應的 CKC 階段一起帶進圖表示。換句話說,模型不只知道「用了什麼技術」,還知道「這個技術在攻擊過程中扮演什麼角色」。
資料來源:作者使用了什麼資料?
論文資料來源來自 APTNotes,是一個收集公開 CTI 報告的資料庫。作者將 2018 到 2024 年間的報告納入分析,並建立一條 NLP 管線來抽取:
- APT groups
- techniques / procedures
- 與 ATT&CK 對應的技術標識
- 與 Cyber Kill Chain 對應的生命週期階段
在 TTP 與 CKC 的對應上,作者使用一份清理過的對應檔進行映射,並抽樣人工審查一致性。若同一個 TTP 對應到多個 CKC stages,則保留最常出現的那一個。
作者也提到,處理後的資料集存在明顯類別不平衡,這意味著某些 APT groups 的樣本數遠高於其他群體。因此,模型設計也必須考慮少樣本與不平衡情形下的穩定性。
特徵表示:這篇論文如何結合語意與攻擊生命週期?
這篇論文的第一個關鍵設計,是為每個 TTP 建立一個同時包含 語意 與 程序脈絡 的表示。
作者使用兩部分來表示一個 TTP:
- 384 維 SBERT embedding:表示 technique 描述的語意內容
- 14 維 one-hot CKC stage vector:表示這個 technique 所對應的攻擊生命週期階段
論文將兩者串接後形成 TTP feature vector,並用公式表示為:
TTP feature = SBERT(TTP) ∥ one-hot(CKC)
這個設計很重要。它代表即使兩個 technique 在文字描述上相近,只要它們所處的 CKC 階段不同,模型仍然能在表示空間中把它們區分開來。作者認為,這能直接改善先前方法容易忽略程序語意的問題。
圖模型設計:APT–TTP–CKC Tripartite Graph
這篇論文使用的是一個 tripartite graph,也就是三方異質圖,節點包含:
- APT groups
- TTPs
- Cyber Kill Chain stages
這三種節點分別代表:
- APT nodes:攻擊者身分
- TTP nodes:技術與行為特徵
- CKC nodes:攻擊生命週期位置
相較於只把 APT 與 TTP 連起來,這種 tripartite graph 額外保留了 TTP 所處的攻擊階段,因此能讓圖推理同時考慮技術相似性、程序位置與不同 APT 組織之間的行為模式差異。
模型核心:Heterogeneous GNN 與訊息傳遞
在分類模型上,作者採用的是基於 GraphSAGE 的 heterogeneous GNN message passing。核心思想是讓訊息在不同型別的節點之間傳遞,使 APT 節點最終能吸收來自 TTP 與 CKC 的語意與程序資訊。
這裡的重點不是使用多麼複雜的最新 GNN 架構,而是先把 CTI 報告中的知識結構整理好,再讓 GNN 在這個具有語意與程序資訊的異質圖上做推理。
這篇論文的創新點在哪裡?
- Tripartite Graph Design:把 APT、TTP、CKC stages 放進同一張異質圖中
- Contextual TTP Embeddings:以 SBERT 取得 technique 語意表示
- Lifecycle-aware Reasoning:將 CKC 程序語意直接納入特徵
- Heterogeneous GNN Attribution:利用異質圖神經網路進行 actor-level classification
- Operational Readiness:以 APTNotes 為基礎,建立較接近實務的自動化情資歸因流程
與 APT-MMF 的差異
若把這篇和前一篇 APT-MMF 一起看,兩者都在處理 CTI-based APT attribution,也都使用 heterogeneous graph 方向,但切入點不同。
- APT-MMF 強調 multimodal features 與 triple attention
- 這篇論文 更強調 contextual threat intelligence、SBERT 語意嵌入,以及 Cyber Kill Chain 對程序脈絡的補強
實驗與結果:作者想證明什麼?
從論文內容來看,作者的實驗目的很明確,不只是要展示模型可行,而是要證明以下幾件事:
- 將 CKC 語意納入圖模型,能提升歸因效果
- SBERT 所提供的 contextual TTP embeddings,優於靜態表示
- 異質圖推理能比單純 profile matching 更有效捕捉 APT 行為差異
- 這種模型對低頻與樣本較少的 APT groups 仍有實用價值
重點整理
- 這篇論文的核心任務是 APT 行動者歸因。
- 作者將 APT、TTP、CKC stages 建成 tripartite heterogeneous graph。
- TTP 特徵同時包含 SBERT 語意嵌入 與 CKC one-hot 向量。
- 這篇論文真正補上的,是許多既有方法沒有處理好的 程序語意。
- 方法上強調 contextual CTI,而不只是靜態技術清單。
- 它與 APT-MMF 同樣屬於 CTI × GNN 路線,但更偏向 lifecycle-aware graph reasoning。
Takeaway
這篇論文最值得記住的一點,是它指出:APT 歸因不只要看攻擊技術本身,還要看技術出現在攻擊流程的哪一個位置。若模型忽略 Cyber Kill Chain 的程序語意,即使兩個 APT 群體的技術使用方式不同,也可能在資料表示上被誤認為相似。
從 CTI 與 AI 整合的角度來看,這篇研究展示了一條很清楚的方向:將語意嵌入、程序脈絡與圖結構一起建模,能讓威脅歸因從靜態特徵比對,走向更接近實務分析思維的關係式推理。
免責聲明
本文由 AI 整理與撰寫,內容主要依據公開論文、技術文件與可取得之研究資料進行彙整、解讀與摘要。儘管已盡力確保內容之完整性與可讀性,仍可能因模型理解限制、資料來源差異或語意轉譯過程而存在疏漏、不精確或更新延遲之處。本文內容僅供研究交流與知識分享參考,實際技術細節、實驗設定與最終結論,仍應以原始論文、官方文件及作者公開資料為準。
