CTINexus 論文閱讀分析：用大型語言模型自動建構 CTI 知識圖譜

2026 年 4 月 6 日

論文基本資訊

論文標題：CTINexus: Automatic Cyber Threat Intelligence Knowledge Graph Construction Using Large Language Models
作者：Yutong Cheng、Osama Bajaber、Saimon Amanuel Tsegai、Dawn Song、Peng Gao
會議：IEEE European Symposium on Security and Privacy（Euro S&P 2025）
年份：2025
arXiv：https://arxiv.org/abs/2410.21060
專案頁面：https://ctinexus.github.io/

CTINexus 是一篇非常貼近當前 CTI 與 LLM 交會熱點的論文。它要處理的核心問題，是如何把原本非結構化、分散在資安報告與新聞中的 Cyber Threat Intelligence（CTI），自動轉換成結構化、可推理、可擴充的 cybersecurity knowledge graph（CSKG）。

這篇研究的關鍵價值，在於它不是依賴大量標註資料重新微調模型，也不是單純依賴固定規則做語法抽取，而是利用 大型語言模型的 in-context learning（ICL）能力，搭配實體對齊與遠距關係推論，建立一套更具彈性、可適應不同本體與新興威脅型態的 CTI knowledge graph 建構流程。

研究問題：這篇論文想解決什麼？

CTI 報告裡其實藏了很多可用知識，例如：

攻擊者名稱
工具與惡意程式
漏洞與攻擊技術
受害對象與行動目標
不同實體之間的關聯

問題在於，這些知識通常散落在自然語言文字中，很難直接被自動化系統使用。傳統做法大致有兩種：

規則式 / 語法解析方法：依賴固定規則與字典，對新威脅與新本體適應力差
監督式微調方法：需要大量標註資料，成本高且不易移植到新任務

因此，這篇論文真正想回答的是：能不能利用 LLM 的少樣本學習能力，在不依賴大量標註資料的前提下，自動抽取高品質 CTI 知識，並組成更完整的資安知識圖？

方法概觀：CTINexus 的三個階段

CTINexus 的系統設計可以拆成三個主要階段：

Phase 1：Security Triplet Extraction
Phase 2：Hierarchical Entity Alignment
Phase 3：Long-Distance Relation Prediction

整體流程可以理解成：

Unstructured CTI reports
        ↓
LLM-based triplet extraction with optimized ICL
        ↓
Hierarchical entity alignment and deduplication
        ↓
Long-distance relation prediction
        ↓
Cybersecurity Knowledge Graph (CSKG)

也就是說，這篇論文不是只做「抽三元組」，而是把問題拆成三段：先抽、再去重、再補關係，目標是讓最後生成的圖不只是正確，還要完整、連通且可用。

第一階段：Security Triplet Extraction

CTINexus 的第一步，是從 CTI 報告中抽出實體與關係，也就是常見的 triplet extraction。這裡的重點不是單純使用 LLM 問一句「幫我抽實體」，而是設計了一套 optimized in-context learning 流程。

作者特別強調兩件事：

示範樣本（demonstrations）的選擇方式會直接影響抽取品質
示範樣本的排列順序也會影響模型表現

根據論文與專案頁資訊，CTINexus 會自動選擇較適合的 demonstration examples，並使用一種特別的排序方式：把最相似的例子放在最後面。作者觀察到這樣的安排能穩定提升效能，顯示 LLM 在此任務上具有某種 recency bias。

這是一個很有意思的發現，因為它說明 prompt engineering 在 CTI 知識抽取裡不只是加幾個例子那麼簡單，而是連例子怎麼挑、怎麼排，都會影響最後抽取品質。

第二階段：Hierarchical Entity Alignment

即使 triplet 抽取得不錯，CTI 知識圖還是常會面臨一個大問題：同一個實體被重複表示。例如同一個威脅組織、同一個惡意程式、同一種技術，可能因為不同拼法、縮寫、別名或上下文描述，而被當成多個不同節點。

CTINexus 在第二階段使用 hierarchical entity alignment 來處理這件事。它的目的，是把語義上相同或高度相近的實體合併起來，減少圖中的冗餘。

這個步驟的重要性很高，因為若不處理實體對齊，最後的知識圖即使抽得很多，也可能變成：

節點過多
語意重複
圖結構破碎
分析與推理品質下降

根據專案頁公開資訊，CTINexus 在這一步的 F1 可以超過 99%，顯示它在實體去重與標準化上表現非常穩定。

第三階段：Long-Distance Relation Prediction

CTI 報告的一個常見問題是，很多真正重要的關聯不會直接寫在相鄰句子裡。有些實體之間距離很遠，但其實存在關係。若模型只抽局部句內關係，最後做出的圖就會變得碎片化，很多關鍵連結都不見了。

CTINexus 的第三步，就是 Long-Distance Relation Prediction。它的目的，是在已經抽出的圖之上，再推論哪些分散在不同位置的實體其實應該連起來。

這一步非常關鍵，因為它直接決定知識圖最後是：

一堆孤立小片段
還是一張真正有用、可推理的連通圖

根據公開結果，這個步驟的 F1 也接近 91%，代表它不是隨便補邊，而是真的能補出不少高品質關聯。

CTINexus 相比既有方法強在哪裡？

CTINexus 的價值，不只在於它用了 LLM，而是它把「LLM 能抽取內容」這件事，真正擴展成一套 可建構知識圖的完整流程。作者在專案頁中也拿它與幾個 baseline 比較，包括：

EXTRACTOR
TTPDrill
LADDER

相較於這些基線方法，CTINexus 的圖更完整、實體之間關聯更清楚，也更不容易出現碎片化子圖。這點很重要，因為在 CTI 場景中，真正有價值的不只是抽到多少實體，而是能不能把它們組成一個可解釋、可分析的 threat profile。

實驗資料：用多少真實 CTI 報告驗證？

根據論文摘要，CTINexus 的評估使用了來自 10 個平台、共 150 篇真實 CTI 報告。這點很重要，因為它代表作者不是只在單一資料集或單一格式上測試，而是嘗試讓方法在更接近真實世界的異質報告上運作。

對 CTI 任務來說，這種跨來源資料驗證尤其重要，因為不同平台的文章風格、術語使用、描述習慣與技術細節密度都可能不同。若方法能在這種條件下仍然保持穩定，代表它的泛化能力比較可信。

主要結果：CTINexus 的表現如何？

根據論文摘要與專案頁資訊，CTINexus 在多個子任務上都顯著優於既有方法。

其中幾個最值得記住的數字包括：

Triplet extraction F1：87.65%
對照 EXTRACTOR：62.29%
Entity recognition F1：90.13%
對照 LADDER：71.13%
Entity alignment F1：99% 以上
Long-distance relation prediction F1：約 91%

這些數字的意義，不只是「分數比較高」，而是代表 CTINexus 在三個核心面向都同時做好了：

抽得準
合得好
補得完整

這也是它能夠建出高品質 CTI knowledge graph 的真正原因。

Backbone 模型的差異

CTINexus 也測試了不同的 LLM backbone，包括：

GPT-4
GPT-3.5
Llama 3
Qwen2.5

從專案頁提供的資訊來看，GPT-4 的表現最好，尤其在 triplet extraction 任務上，相比 GPT-3.5 有超過 10 個百分點的優勢。不過代價也很明顯：token 成本更高、推論時間更長。

這點很實際。它提醒我們，在 CTI 自動化流程中，模型選擇不只是看準確率，也要考慮成本、吞吐量與是否適合實務部署。

這篇論文真正的亮點是什麼？

如果要把 CTINexus 的亮點濃縮成一句話，我會這樣描述：

它不是把 LLM 當成一個抽取器而已，而是把 LLM 納入一整條可落地的 CTI 知識圖建構流程中。

這個差異很重要。許多看起來也在做「LLM + CTI」的研究，實際上只是把模型拿來抽個實體或做分類。但 CTINexus 從設計上更接近一個系統，而不是單一子任務模型。

重點整理

CTINexus 的目標，是把非結構化 CTI 報告自動轉成高品質的 cybersecurity knowledge graph。
方法分成三個階段：triplet extraction、entity alignment、long-distance relation prediction。
核心技術是 optimized in-context learning，而不是依賴大量標註資料重新微調。
它能適應不同本體與新威脅型態，泛化能力比規則式與重度微調方法更強。
Triplet extraction、entity recognition、entity alignment 與 relation prediction 都取得不錯表現。
這篇論文的價值不只在抽取準確率，而在它能建出更完整、連通、可用的 CTI knowledge graph。

Takeaway

CTINexus 最值得注意的地方，不只是它把 LLM 用在 CTI 上，而是它證明了：在不依賴大量標註資料與重度模型微調的前提下，仍然有機會建立出高品質、可擴充且具有實務價值的 CTI knowledge graph。

如果你關心的是 AI 在資安中的真正落地方式，這篇論文提供了一個很有代表性的方向：不是單純讓 LLM 回答問題，而是把它放進知識抽取、圖建構、實體對齊與關係補全的完整流程中，讓 CTI 從文字報告轉變成真正可推理、可分析的知識結構。

免責聲明

本文由 AI 整理與撰寫，內容主要依據公開論文、技術文件與可取得之研究資料進行彙整、解讀與摘要。儘管已盡力確保內容之完整性與可讀性，仍可能因模型理解限制、資料來源差異或語意轉譯過程而存在疏漏、不精確或更新延遲之處。本文內容僅供研究交流與知識分享參考，實際技術細節、實驗設定與最終結論，仍應以原始論文、官方文件及作者公開資料為準。

CTINexus 論文閱讀分析：用大型語言模型自動建構 CTI 知識圖譜

論文基本資訊

研究問題：這篇論文想解決什麼？

方法概觀：CTINexus 的三個階段

第一階段：Security Triplet Extraction

第二階段：Hierarchical Entity Alignment

第三階段：Long-Distance Relation Prediction

CTINexus 相比既有方法強在哪裡？

實驗資料：用多少真實 CTI 報告驗證？

主要結果：CTINexus 的表現如何？

Backbone 模型的差異

這篇論文真正的亮點是什麼？

重點整理

Takeaway

免責聲明

發佈留言取消回覆

You may also like

近期文章

廣告

文章分類

近期留言

論文基本資訊

研究問題：這篇論文想解決什麼？

方法概觀：CTINexus 的三個階段

第一階段：Security Triplet Extraction

第二階段：Hierarchical Entity Alignment

第三階段：Long-Distance Relation Prediction

CTINexus 相比既有方法強在哪裡？

實驗資料：用多少真實 CTI 報告驗證？

主要結果：CTINexus 的表現如何？

Backbone 模型的差異

這篇論文真正的亮點是什麼？

重點整理

Takeaway

免責聲明

發佈留言 取消回覆

You may also like

Frontier LLM Offensive Cyber Benchmark 論文閱讀分析：真正把 agent 表現往上推的，常常不是 prompt，而是它手邊到底有沒有一個像樣的 Kali 工作台

Prompt Injection SoK 論文閱讀分析：真正該被治理的，早就不只是 prompt，而是整條 coding agent 會接觸到的控制面

近期文章

廣告

文章分類

近期留言

發佈留言取消回覆