論文閱讀分析：用 Knowledge Graph 與大型語言模型打造可行動的 Cyber Threat Intelligence

2026 年 4 月 6 日

論文基本資訊

論文標題：Actionable Cyber Threat Intelligence using Knowledge Graphs and Large Language Models
來源：arXiv / Workshop on Attackers and Cyber-Crime Operations
年份：2024
arXiv：https://arxiv.org/abs/2407.02528
主題：CTI、Knowledge Graph、LLM、triplet extraction、actionable intelligence

Actionable Cyber Threat Intelligence using Knowledge Graphs and Large Language Models 這篇論文想處理的核心問題很直接：當大量 CTI 仍以非結構化文字形式存在時，如何把其中真正有用、可行動的威脅資訊抽取出來，進一步建構成可查詢、可分析的知識圖譜。

這篇研究的方向很符合近年的 CTI 發展趨勢。因為越來越多組織開始嘗試把 大型語言模型（LLMs） 應用在威脅情資萃取上，希望降低人工閱讀報告與手動整理威脅資訊的成本。不過作者也很務實地指出，LLM 並不是一套上去就萬事大吉，真正困難的地方在於：要如何把抽出的資訊整理成結構化知識，並進一步變成可行動的 CTI。

研究問題：這篇論文想解決什麼？

CTI 的價值不在於資料量本身，而在於其中能不能提煉出真正有助於防禦與決策的資訊。問題是，很多 CTI 仍然存在於自然語言報告、分析文章與事件敘述中，若沒有進一步結構化，就很難有效查詢與重複利用。

因此，作者提出的問題是：能否利用 LLM 自動從 CTI 文字中抽取出有意義的 triples，進一步構成 Knowledge Graph，讓原本難以操作的文字情資變成可查詢、可分析、可推理的 actionable CTI？

這裡的關鍵不是單純做資訊抽取，而是要讓抽出的結果可以支援後續分析，因此論文特別強調 actionable 這個詞，也就是情資必須能夠真正被使用。

方法概觀：這篇論文怎麼做？

作者的方法大致可以拆成三個主要部分：

利用開源 LLM 從 CTI 文字中抽取 triples
比較不同資訊抽取策略的表現
將抽取出的資料組成 Knowledge Graph，作為結構化 CTI 表示

整體流程可以整理成：

Unstructured CTI text
        ↓
LLM-based information extraction
        ↓
Triplet generation
        ↓
Knowledge Graph construction
        ↓
Structured and actionable CTI representation

從架構上來看，這篇論文的重點不只是問「LLM 能不能抽資訊」，而是更進一步問：「抽出來之後，能不能組成足夠有用的知識圖？」

這篇論文用了哪些模型？

根據摘要，作者測試的開源 LLM 包括：

Llama 2 系列
Mistral 7B Instruct
Zephyr

這代表作者並不是只使用單一模型，而是比較不同開源模型在 CTI triple extraction 任務上的表現。這一點很重要，因為在資安研究中，開源模型是否已經足夠勝任實務任務，本來就是一個非常有價值的問題。

作者比較了哪些資訊抽取方法？

這篇論文不只是單純把 prompt 丟進 LLM，而是比較了幾種不同策略來優化資訊抽取：

Prompt Engineering
Guidance Framework
Fine-tuning

這裡的比較非常關鍵，因為它回答了一個實務上很常見的問題：到底要靠 prompt 調整就好，還是要再往 fine-tuning 走，甚至搭配額外的抽取控制框架？

根據摘要，作者觀察到：

Guidance 與 fine-tuning 的表現優於單純 prompt engineering
單靠 prompt engineering 雖然可行，但效果相對較弱

這個結果很有參考價值，因為它說明在 CTI 抽取這類結構化要求很高的任務中，單靠 prompt 不一定足夠，若要提高可用性，仍可能需要更強的約束或額外訓練。

Knowledge Graph 在這篇論文中的角色是什麼？

Knowledge Graph 在這篇論文中扮演的角色，不只是儲存抽取結果，而是讓原本零散的 CTI 內容變成一個 結構化、可查詢、可延伸 的知識表示。

這樣的轉換有幾個明顯好處：

讓 CTI 可以從長篇文字敘述轉成結構化 triples
更容易做查詢與交叉比對
更容易與其他圖資料或威脅知識整合
能作為後續圖分析與 link prediction 的基礎

因此，這篇論文其實不只是談「抽資訊」，而是在談「如何把抽出的資訊放進一個更有長期價值的知識結構中」。

這篇論文為什麼強調 actionable CTI？

很多 CTI 研究做到某個階段，往往只停在「抽到了很多東西」。但作者很清楚地把研究目標放在 actionable 上，也就是希望抽出來的知識不是只有看起來漂亮，而是能真正支援後續威脅理解與資安決策。

從這篇論文的脈絡來看，所謂 actionable，至少意味著：

知識要能被結構化表示
知識要能被查詢與重複利用
知識圖要有助於後續關聯分析
不能只是抽出一堆片段，卻無法支援防禦與調查

這也是這篇論文比單純的 NER 或 relation extraction work 更值得注意的地方。

實驗結果：作者想證明什麼？

根據摘要，作者的實驗主要證明兩件事：

LLM 確實能有效從 CTI 文本中抽取有意義的資訊
Guidance 與 fine-tuning 比單純 prompt engineering 更有效

但作者也沒有過度樂觀。論文明確指出，雖然這些方法在小規模測試上有效，但一旦進到大規模資料與更完整的 Knowledge Graph 建構場景，仍然存在不少挑戰，尤其包括：

大規模資料處理成本
圖建構品質穩定性
Link Prediction 難度
大模型應用到實務時的成本與泛化問題

這點反而讓這篇研究看起來更可信，因為作者沒有把結果包裝成「問題已全部解決」，而是誠實指出目前成效與限制。

這篇論文的價值在哪裡？

如果把這篇論文放在 CTI × AI 的脈絡裡來看，它的價值主要有三個層次：

它證明 LLM 已經能在 CTI 文字抽取任務上發揮作用
它把抽取結果進一步轉成 Knowledge Graph，而不是停留在表面資訊抽取
它明確指出未來若要走向實務部署，還需要解決大規模 KG construction 與 link prediction 的挑戰

也就是說，這篇論文不只是展示一個技術 demo，而是在描繪一條從 CTI 文本到結構化知識，再到更高階威脅分析的路徑。

重點整理

這篇論文聚焦在 actionable CTI 的自動抽取與結構化表示。
作者結合 開源 LLM 與 Knowledge Graph 來處理非結構化 CTI 文本。
測試模型包括 Llama 2、Mistral 7B Instruct 與 Zephyr。
比較策略包括 prompt engineering、guidance framework 與 fine-tuning。
結果顯示 guidance 與 fine-tuning 優於單純 prompt engineering。
這篇研究的重點不只是抽 triples，而是讓情資能進一步變成可查詢、可分析的 Knowledge Graph。
作者也誠實指出，大規模圖建構與 link prediction 仍是後續挑戰。

Takeaway

這篇論文最值得記住的一點，是它把 CTI 的 AI 化從「文字抽取」往前推進到「可行動知識圖建構」這一步。它不是只證明 LLM 能從報告中找出資訊，而是更進一步把這些資訊整理成 Knowledge Graph，讓 CTI 真正朝向可查詢、可分析、可擴充的方向發展。

如果你關心的是 AI 到底如何真正進入 CTI 流程，這篇論文給出了一個很清楚的答案：LLM 可以成為抽取引擎，但若要讓結果真的具備實務價值，仍必須搭配結構化知識表示與後續圖分析能力。

免責聲明

本文由 AI 整理與撰寫，內容主要依據公開論文、技術文件與可取得之研究資料進行彙整、解讀與摘要。儘管已盡力確保內容之完整性與可讀性，仍可能因模型理解限制、資料來源差異或語意轉譯過程而存在疏漏、不精確或更新延遲之處。本文內容僅供研究交流與知識分享參考，實際技術細節、實驗設定與最終結論，仍應以原始論文、官方文件及作者公開資料為準。

論文閱讀分析：用 Knowledge Graph 與大型語言模型打造可行動的 Cyber Threat Intelligence

論文基本資訊

研究問題：這篇論文想解決什麼？

方法概觀：這篇論文怎麼做？

這篇論文用了哪些模型？

作者比較了哪些資訊抽取方法？

Knowledge Graph 在這篇論文中的角色是什麼？

這篇論文為什麼強調 actionable CTI？

實驗結果：作者想證明什麼？

這篇論文的價值在哪裡？

重點整理

Takeaway

免責聲明

發佈留言取消回覆

You may also like

近期文章

廣告

文章分類

近期留言

論文基本資訊

研究問題：這篇論文想解決什麼？

方法概觀：這篇論文怎麼做？

這篇論文用了哪些模型？

作者比較了哪些資訊抽取方法？

Knowledge Graph 在這篇論文中的角色是什麼？

這篇論文為什麼強調 actionable CTI？

實驗結果：作者想證明什麼？

這篇論文的價值在哪裡？

重點整理

Takeaway

免責聲明

發佈留言 取消回覆

You may also like

研究生不是在讀書，是在和不確定性長期交戰

RAGRank 論文閱讀分析：用 PageRank 抵禦 CTI LLM Pipeline 的資料投毒

近期文章

廣告

文章分類

近期留言

發佈留言取消回覆