TITAN 論文閱讀分析:把 CTI 問答升級成可執行的知識圖譜推理

論文基本資訊

  • 論文標題:TITAN: Graph-Executable Reasoning for Cyber Threat Intelligence
  • 作者:Marco Simoni 等
  • 單位:Sapienza Università di Roma、CNR Institute of Informatics and Telematics、Scuola Superiore Sant’Anna
  • 來源:arXiv
  • 年份:2025
  • arXiv:https://arxiv.org/abs/2510.14670
  • 程式碼:https://github.com/cti-graph-reasoner/TITAN
  • 主題:CTI、Knowledge Graph、Graph Reasoning、LLM、MITRE ATT&CK、Multi-hop Reasoning

TITAN: Graph-Executable Reasoning for Cyber Threat Intelligence 這篇論文處理的是一個很關鍵、但過去很多 CTI 系統都沒有真正解乾淨的問題:當分析者用自然語言提出威脅問題時,系統能不能不只是「找相關文件」,而是真的沿著知識圖譜做可執行、可追蹤、可驗證的推理?

作者提出的 TITAN(Threat Intelligence Through Automated Navigation),核心想法不是再做一個普通的 RAG,而是讓模型先把自然語言問題轉成 relation path,再由圖譜執行器沿著這條路徑在知識圖上走,最後取回答案與證據。換句話說,這篇研究想做的不是「檢索強化生成」,而是更接近 graph-executable reasoning

研究問題:這篇論文想解決什麼?

作者在導論裡很清楚指出:近年的 CTI 自動化系統雖然開始採用 LLM 與 RAG,但面對真正的多跳推理(multi-hop reasoning)時,通常還是有幾個限制:

  • 很多系統仍停留在 entity retrieval 或文件檢索
  • 對複合式問題缺乏明確的 relational reasoning chain
  • 推理過程不夠透明,難以驗證
  • 即使答對,也不一定能清楚解釋答案是怎麼得來的

因此,這篇論文的核心問題可以濃縮成一句話:

能不能把 CTI 問答從「找文件、生成答案」推進到「先產生可執行的圖推理路徑,再由圖執行器確定性地求解」?

這件事很重要,因為 CTI 的很多問題本來就不是單跳關係。例如你問:

  • 某個 malware 使用哪些 ATT&CK attack patterns?
  • 哪些 defensive strategies 可以 mitigate 某類 technique?
  • 哪個 threat actor 使用某個 malware,而該 malware 又對應哪些攻擊技術?

這些都不是簡單 keyword match 可以解決的,而更像是圖上的多步驟 traversals。

方法概觀:TITAN 是怎麼設計的?

TITAN 的整體架構可以拆成兩個核心元件:

  • Path Planner:由 LLM 負責,輸入自然語言問題,輸出邏輯 relation path 與起始節點
  • Graph Executor:在 TITAN 知識圖譜上執行這條 path,回傳符合條件的實體與證據

把流程簡化成 pipeline,可以寫成:

Natural-language CTI query
        ↓
LLM path planner
        ↓
Predicted reasoning path + starting node
        ↓
Graph executor
        ↓
Deterministic traversal on TITAN KG
        ↓
Answer entities + supporting evidence

這個設計有個很大的優點:生成與求解被切開了。LLM 負責的是「推理規劃」,而不是直接輸出最終答案;真正的答案則由圖執行器根據路徑在知識圖譜中跑出來。這樣可以大幅增加可追溯性與可驗證性。

TITAN Ontology:這篇論文真正的基礎設施

TITAN 並不是直接拿 MITRE ATT&CK 原始資料就上,而是先把 MITRE CTI graph 重新整理成作者定義的 TITAN Ontology。這個 ontology 有兩個關鍵特性:

  • Typed relations
  • Bidirectional relations

1. Typed relations

作者明確把 relation label 設計成能看出目標節點型別,例如不是只有籠統的 uses,而是區分為:

  • uses_attack_pattern
  • uses_malware
  • 其他目標型別對應的專屬關係

這很重要,因為若只保留一個動詞層級的邊,圖執行器在 traversal 時會不知道下一步該走向哪一種節點。

2. Bidirectional relations

所有關係都以雙向形式存在。舉例來說:

malware --uses_attack_pattern→ attack pattern
attack pattern --used_by_malware→ malware

這代表推理既可以從 malware 往 technique 走,也可以從 technique 反推哪些 malware 使用它。這讓 TITAN 能夠處理更彈性的查詢方向,而不是只能固定沿單向路徑查找。

TITAN KG 的規模

論文中提到,TITAN Knowledge Graph 共有:

  • 2,350 個 nodes
  • 48,795 條 edges

節點型別則涵蓋多個 CTI abstraction levels,包括:

  • Attack Patterns:883 nodes
  • Courses of Action:318 nodes
  • Malware:732 nodes
  • Tools:89 nodes
  • Campaigns:31 nodes
  • Intrusion Sets:168 nodes
  • Data Components:122 nodes
  • Data Sources:43 nodes
  • Assets:14 nodes

從這個設計可以看出,作者想表達的不是單一 ATT&CK technique map,而是一個能在 threat actors、campaigns、malware、techniques、defenses、telemetry 之間來回導航的 CTI graph。

TITAN Dataset:這篇論文不只提框架,還建了資料集

除了框架本身,TITAN 的另一個大貢獻是作者建立了 TITAN Dataset,用來訓練與評估 path planner。資料集總共有:

  • 88,209 筆樣本
  • Train:74,258
  • Test:13,951

每筆資料配對的內容不是普通 QA,而是:

  • 自然語言問題
  • 可執行的 reasoning paths
  • step-by-step Chain-of-Thought 解釋

作者提到,他們手工設計了超過 700 個 question templates,再用知識圖譜中的實體去填空,並透過 LLM paraphrasing 增加語言多樣性,避免模型只背模板。

這個資料集設計相當有意思,因為它不是只告訴模型「答案是什麼」,而是告訴模型「應該走哪一條圖路徑才能得到答案」。

Operators 設計:不是所有 CTI 問題都有單一起點

作者也注意到,有些 CTI 問題不會直接指定明確起點。例如:

List all ransomware detection strategies

這類問題不能只靠單一路徑 traversal,因此 TITAN 額外設計了四個 operators:

  • filter
  • select
  • exec_common
  • exec_difference

這些 operators 讓 TITAN 可以:

  • 先限制搜尋子集合(filter)
  • 平行展開多個分支(select)
  • 找共同結果(exec_common)
  • 找差異結果(exec_difference)

這使得 TITAN 不只是「從 A 走到 B」的路徑預測器,而更接近能處理 compositional graph reasoning 的 CTI 問答系統。

實驗設計:作者怎麼驗證 TITAN?

在實驗中,作者使用 Phi-3.5-mini-instruct 當作 path planner,並比較兩種版本:

  • CoT:先產生推理過程,再輸出 path
  • NoCoT:直接預測 path,不做中間 reasoning

主要評估面向有兩類:

  • Path Accuracy:用 exact match 衡量 predicted path 是否和參考答案完全一致
  • Reasoning Quality:用 ROUGE、BLEU、BERTScore 評估 CoT 解釋品質

作者還依 path length(L1 到 L4+)與 operator 類型(filter、select、exec_common、exec_difference)分桶評估,這讓結果不只是單一平均分數,而能看出多跳與複合查詢到底難在哪裡。

實驗結果:CoT 版明顯優於 NoCoT

論文最重要的結果是:顯式 Chain-of-Thought 推理,對可執行 relation path 的生成有明顯幫助。

作者指出:

  • CoT model 在所有 bucket 上都優於 NoCoT baseline
  • 提升最大的是 長路徑(L4+)filter-based operators
  • exec_commonexec_difference 仍是最具挑戰的部份,因為它們需要更強的 compositional reasoning

在 reasoning quality 上,論文也提到 CoT explanations 與 reference explanations 維持很高的一致性,像是:

  • ROUGE-L 平均表現很高
  • BERTScore 平均超過 0.94

這表示 CoT 不只是幫模型答題,還幫它維持了相對可讀、可對照的推理過程。

這篇論文和一般 RAG / CTI QA 有什麼不同?

TITAN 和一般 RAG-based CTI 系統最核心的差異,在於它把「檢索」升級成「可執行推理」。

一般 RAG 大致是:

  • 找相關文件
  • 把文件片段塞進 prompt
  • 由 LLM 生成答案

而 TITAN 的流程則是:

  • 先預測 relation path
  • 再由 graph executor 沿路徑跑圖
  • 最後取回確定性答案與支撐證據

這種設計的價值在於:

  • 答案更可驗證
  • 路徑更可解釋
  • 多跳查詢更自然
  • 更貼近知識圖譜原本該擅長的任務

這篇論文的價值在哪裡?

如果把 TITAN 放進 CTI × AI × KG 的脈絡裡,它的價值主要有四點:

  • 它把 CTI 問答從純檢索推進到 graph-executable reasoning
  • 它提出一套 typed + bidirectional ontology,讓 traversal 更清楚
  • 它建立了大規模 TITAN Dataset,把自然語言問題和 reasoning paths 對齊
  • 它證明了顯式 CoT 對多跳 CTI graph reasoning 確實有幫助

這不只是 another RAG paper,而是把 CTI graph QA 做得更接近「可執行推理系統」的一次推進。

重點整理

  • 這篇論文提出 TITAN,一套用於 CTI 的 graph-executable reasoning 框架。
  • 系統由 LLM path plannergraph executor 組成。
  • TITAN KG 建立在改造後的 MITRE 圖譜之上,包含 2,350 nodes48,795 edges
  • Ontology 的核心設計是 typed relationsbidirectional relations
  • TITAN Dataset 共有 88,209 筆樣本,每筆都包含自然語言問題、可執行 path 與 CoT 解釋。
  • 作者用 Phi-3.5-mini-instruct 比較 CoT 與 NoCoT 版本,結果顯示 CoT 在各類 bucket 上都更好。
  • 提升最明顯的場景是 長路徑多跳推理,但 exec_common / exec_difference 仍最具挑戰。

Takeaway

這篇論文最值得記住的一點,是它把 CTI 問答從「讓 LLM 看文件後回答」推進到「讓 LLM 規劃推理路徑,再由知識圖確定性執行」。

這個差別很大。前者比較像語言生成增強檢索;後者則更接近真正可驗證的知識推理。對於想把 CTI、MITRE ATT&CK、知識圖譜與 LLM 結合得更穩、更透明的人來說,TITAN 代表了一個非常值得追的方向:把自然語言問題轉成可執行的圖推理,而不是只讓模型憑感覺回答。

免責聲明

本文由 AI 整理與撰寫,內容主要依據公開論文、技術文件與可取得之研究資料進行彙整、解讀與摘要。儘管已盡力確保內容之完整性與可讀性,仍可能因模型理解限制、資料來源差異或語意轉譯過程而存在疏漏、不精確或更新延遲之處。本文內容僅供研究交流與知識分享參考,實際技術細節、實驗設定與最終結論,仍應以原始論文、官方文件及作者公開資料為準。

You may also like