TITAN 論文閱讀分析:把 CTI 問答升級成可執行的知識圖譜推理
論文基本資訊
- 論文標題:TITAN: Graph-Executable Reasoning for Cyber Threat Intelligence
- 作者:Marco Simoni 等
- 單位:Sapienza Università di Roma、CNR Institute of Informatics and Telematics、Scuola Superiore Sant’Anna
- 來源:arXiv
- 年份:2025
- arXiv:https://arxiv.org/abs/2510.14670
- 程式碼:https://github.com/cti-graph-reasoner/TITAN
- 主題:CTI、Knowledge Graph、Graph Reasoning、LLM、MITRE ATT&CK、Multi-hop Reasoning
TITAN: Graph-Executable Reasoning for Cyber Threat Intelligence 這篇論文處理的是一個很關鍵、但過去很多 CTI 系統都沒有真正解乾淨的問題:當分析者用自然語言提出威脅問題時,系統能不能不只是「找相關文件」,而是真的沿著知識圖譜做可執行、可追蹤、可驗證的推理?
作者提出的 TITAN(Threat Intelligence Through Automated Navigation),核心想法不是再做一個普通的 RAG,而是讓模型先把自然語言問題轉成 relation path,再由圖譜執行器沿著這條路徑在知識圖上走,最後取回答案與證據。換句話說,這篇研究想做的不是「檢索強化生成」,而是更接近 graph-executable reasoning。
研究問題:這篇論文想解決什麼?
作者在導論裡很清楚指出:近年的 CTI 自動化系統雖然開始採用 LLM 與 RAG,但面對真正的多跳推理(multi-hop reasoning)時,通常還是有幾個限制:
- 很多系統仍停留在 entity retrieval 或文件檢索
- 對複合式問題缺乏明確的 relational reasoning chain
- 推理過程不夠透明,難以驗證
- 即使答對,也不一定能清楚解釋答案是怎麼得來的
因此,這篇論文的核心問題可以濃縮成一句話:
能不能把 CTI 問答從「找文件、生成答案」推進到「先產生可執行的圖推理路徑,再由圖執行器確定性地求解」?
這件事很重要,因為 CTI 的很多問題本來就不是單跳關係。例如你問:
- 某個 malware 使用哪些 ATT&CK attack patterns?
- 哪些 defensive strategies 可以 mitigate 某類 technique?
- 哪個 threat actor 使用某個 malware,而該 malware 又對應哪些攻擊技術?
這些都不是簡單 keyword match 可以解決的,而更像是圖上的多步驟 traversals。
方法概觀:TITAN 是怎麼設計的?
TITAN 的整體架構可以拆成兩個核心元件:
- Path Planner:由 LLM 負責,輸入自然語言問題,輸出邏輯 relation path 與起始節點
- Graph Executor:在 TITAN 知識圖譜上執行這條 path,回傳符合條件的實體與證據
把流程簡化成 pipeline,可以寫成:
Natural-language CTI query
↓
LLM path planner
↓
Predicted reasoning path + starting node
↓
Graph executor
↓
Deterministic traversal on TITAN KG
↓
Answer entities + supporting evidence
這個設計有個很大的優點:生成與求解被切開了。LLM 負責的是「推理規劃」,而不是直接輸出最終答案;真正的答案則由圖執行器根據路徑在知識圖譜中跑出來。這樣可以大幅增加可追溯性與可驗證性。
TITAN Ontology:這篇論文真正的基礎設施
TITAN 並不是直接拿 MITRE ATT&CK 原始資料就上,而是先把 MITRE CTI graph 重新整理成作者定義的 TITAN Ontology。這個 ontology 有兩個關鍵特性:
- Typed relations
- Bidirectional relations
1. Typed relations
作者明確把 relation label 設計成能看出目標節點型別,例如不是只有籠統的 uses,而是區分為:
uses_attack_patternuses_malware- 其他目標型別對應的專屬關係
這很重要,因為若只保留一個動詞層級的邊,圖執行器在 traversal 時會不知道下一步該走向哪一種節點。
2. Bidirectional relations
所有關係都以雙向形式存在。舉例來說:
malware --uses_attack_pattern→ attack pattern
attack pattern --used_by_malware→ malware
這代表推理既可以從 malware 往 technique 走,也可以從 technique 反推哪些 malware 使用它。這讓 TITAN 能夠處理更彈性的查詢方向,而不是只能固定沿單向路徑查找。
TITAN KG 的規模
論文中提到,TITAN Knowledge Graph 共有:
- 2,350 個 nodes
- 48,795 條 edges
節點型別則涵蓋多個 CTI abstraction levels,包括:
- Attack Patterns:883 nodes
- Courses of Action:318 nodes
- Malware:732 nodes
- Tools:89 nodes
- Campaigns:31 nodes
- Intrusion Sets:168 nodes
- Data Components:122 nodes
- Data Sources:43 nodes
- Assets:14 nodes
從這個設計可以看出,作者想表達的不是單一 ATT&CK technique map,而是一個能在 threat actors、campaigns、malware、techniques、defenses、telemetry 之間來回導航的 CTI graph。
TITAN Dataset:這篇論文不只提框架,還建了資料集
除了框架本身,TITAN 的另一個大貢獻是作者建立了 TITAN Dataset,用來訓練與評估 path planner。資料集總共有:
- 88,209 筆樣本
- Train:74,258
- Test:13,951
每筆資料配對的內容不是普通 QA,而是:
- 自然語言問題
- 可執行的 reasoning paths
- step-by-step Chain-of-Thought 解釋
作者提到,他們手工設計了超過 700 個 question templates,再用知識圖譜中的實體去填空,並透過 LLM paraphrasing 增加語言多樣性,避免模型只背模板。
這個資料集設計相當有意思,因為它不是只告訴模型「答案是什麼」,而是告訴模型「應該走哪一條圖路徑才能得到答案」。
Operators 設計:不是所有 CTI 問題都有單一起點
作者也注意到,有些 CTI 問題不會直接指定明確起點。例如:
List all ransomware detection strategies
這類問題不能只靠單一路徑 traversal,因此 TITAN 額外設計了四個 operators:
- filter
- select
- exec_common
- exec_difference
這些 operators 讓 TITAN 可以:
- 先限制搜尋子集合(filter)
- 平行展開多個分支(select)
- 找共同結果(exec_common)
- 找差異結果(exec_difference)
這使得 TITAN 不只是「從 A 走到 B」的路徑預測器,而更接近能處理 compositional graph reasoning 的 CTI 問答系統。
實驗設計:作者怎麼驗證 TITAN?
在實驗中,作者使用 Phi-3.5-mini-instruct 當作 path planner,並比較兩種版本:
- CoT:先產生推理過程,再輸出 path
- NoCoT:直接預測 path,不做中間 reasoning
主要評估面向有兩類:
- Path Accuracy:用 exact match 衡量 predicted path 是否和參考答案完全一致
- Reasoning Quality:用 ROUGE、BLEU、BERTScore 評估 CoT 解釋品質
作者還依 path length(L1 到 L4+)與 operator 類型(filter、select、exec_common、exec_difference)分桶評估,這讓結果不只是單一平均分數,而能看出多跳與複合查詢到底難在哪裡。
實驗結果:CoT 版明顯優於 NoCoT
論文最重要的結果是:顯式 Chain-of-Thought 推理,對可執行 relation path 的生成有明顯幫助。
作者指出:
- CoT model 在所有 bucket 上都優於 NoCoT baseline
- 提升最大的是 長路徑(L4+) 與 filter-based operators
- exec_common 與 exec_difference 仍是最具挑戰的部份,因為它們需要更強的 compositional reasoning
在 reasoning quality 上,論文也提到 CoT explanations 與 reference explanations 維持很高的一致性,像是:
- ROUGE-L 平均表現很高
- BERTScore 平均超過 0.94
這表示 CoT 不只是幫模型答題,還幫它維持了相對可讀、可對照的推理過程。
這篇論文和一般 RAG / CTI QA 有什麼不同?
TITAN 和一般 RAG-based CTI 系統最核心的差異,在於它把「檢索」升級成「可執行推理」。
一般 RAG 大致是:
- 找相關文件
- 把文件片段塞進 prompt
- 由 LLM 生成答案
而 TITAN 的流程則是:
- 先預測 relation path
- 再由 graph executor 沿路徑跑圖
- 最後取回確定性答案與支撐證據
這種設計的價值在於:
- 答案更可驗證
- 路徑更可解釋
- 多跳查詢更自然
- 更貼近知識圖譜原本該擅長的任務
這篇論文的價值在哪裡?
如果把 TITAN 放進 CTI × AI × KG 的脈絡裡,它的價值主要有四點:
- 它把 CTI 問答從純檢索推進到 graph-executable reasoning
- 它提出一套 typed + bidirectional ontology,讓 traversal 更清楚
- 它建立了大規模 TITAN Dataset,把自然語言問題和 reasoning paths 對齊
- 它證明了顯式 CoT 對多跳 CTI graph reasoning 確實有幫助
這不只是 another RAG paper,而是把 CTI graph QA 做得更接近「可執行推理系統」的一次推進。
重點整理
- 這篇論文提出 TITAN,一套用於 CTI 的 graph-executable reasoning 框架。
- 系統由 LLM path planner 與 graph executor 組成。
- TITAN KG 建立在改造後的 MITRE 圖譜之上,包含 2,350 nodes 與 48,795 edges。
- Ontology 的核心設計是 typed relations 與 bidirectional relations。
- TITAN Dataset 共有 88,209 筆樣本,每筆都包含自然語言問題、可執行 path 與 CoT 解釋。
- 作者用 Phi-3.5-mini-instruct 比較 CoT 與 NoCoT 版本,結果顯示 CoT 在各類 bucket 上都更好。
- 提升最明顯的場景是 長路徑 與 多跳推理,但
exec_common/exec_difference仍最具挑戰。
Takeaway
這篇論文最值得記住的一點,是它把 CTI 問答從「讓 LLM 看文件後回答」推進到「讓 LLM 規劃推理路徑,再由知識圖確定性執行」。
這個差別很大。前者比較像語言生成增強檢索;後者則更接近真正可驗證的知識推理。對於想把 CTI、MITRE ATT&CK、知識圖譜與 LLM 結合得更穩、更透明的人來說,TITAN 代表了一個非常值得追的方向:把自然語言問題轉成可執行的圖推理,而不是只讓模型憑感覺回答。
免責聲明
本文由 AI 整理與撰寫,內容主要依據公開論文、技術文件與可取得之研究資料進行彙整、解讀與摘要。儘管已盡力確保內容之完整性與可讀性,仍可能因模型理解限制、資料來源差異或語意轉譯過程而存在疏漏、不精確或更新延遲之處。本文內容僅供研究交流與知識分享參考,實際技術細節、實驗設定與最終結論,仍應以原始論文、官方文件及作者公開資料為準。
