論文閱讀分析:用 Knowledge Graph 與大型語言模型打造可行動的 Cyber Threat Intelligence

論文基本資訊

  • 論文標題:Actionable Cyber Threat Intelligence using Knowledge Graphs and Large Language Models
  • 來源:arXiv / Workshop on Attackers and Cyber-Crime Operations
  • 年份:2024
  • arXiv:https://arxiv.org/abs/2407.02528
  • 主題:CTI、Knowledge Graph、LLM、triplet extraction、actionable intelligence

Actionable Cyber Threat Intelligence using Knowledge Graphs and Large Language Models 這篇論文想處理的核心問題很直接:當大量 CTI 仍以非結構化文字形式存在時,如何把其中真正有用、可行動的威脅資訊抽取出來,進一步建構成可查詢、可分析的知識圖譜。

這篇研究的方向很符合近年的 CTI 發展趨勢。因為越來越多組織開始嘗試把 大型語言模型(LLMs) 應用在威脅情資萃取上,希望降低人工閱讀報告與手動整理威脅資訊的成本。不過作者也很務實地指出,LLM 並不是一套上去就萬事大吉,真正困難的地方在於:要如何把抽出的資訊整理成結構化知識,並進一步變成可行動的 CTI。

研究問題:這篇論文想解決什麼?

CTI 的價值不在於資料量本身,而在於其中能不能提煉出真正有助於防禦與決策的資訊。問題是,很多 CTI 仍然存在於自然語言報告、分析文章與事件敘述中,若沒有進一步結構化,就很難有效查詢與重複利用。

因此,作者提出的問題是:能否利用 LLM 自動從 CTI 文字中抽取出有意義的 triples,進一步構成 Knowledge Graph,讓原本難以操作的文字情資變成可查詢、可分析、可推理的 actionable CTI?

這裡的關鍵不是單純做資訊抽取,而是要讓抽出的結果可以支援後續分析,因此論文特別強調 actionable 這個詞,也就是情資必須能夠真正被使用。

方法概觀:這篇論文怎麼做?

作者的方法大致可以拆成三個主要部分:

  • 利用開源 LLM 從 CTI 文字中抽取 triples
  • 比較不同資訊抽取策略的表現
  • 將抽取出的資料組成 Knowledge Graph,作為結構化 CTI 表示

整體流程可以整理成:

Unstructured CTI text
        ↓
LLM-based information extraction
        ↓
Triplet generation
        ↓
Knowledge Graph construction
        ↓
Structured and actionable CTI representation

從架構上來看,這篇論文的重點不只是問「LLM 能不能抽資訊」,而是更進一步問:「抽出來之後,能不能組成足夠有用的知識圖?」

這篇論文用了哪些模型?

根據摘要,作者測試的開源 LLM 包括:

  • Llama 2 系列
  • Mistral 7B Instruct
  • Zephyr

這代表作者並不是只使用單一模型,而是比較不同開源模型在 CTI triple extraction 任務上的表現。這一點很重要,因為在資安研究中,開源模型是否已經足夠勝任實務任務,本來就是一個非常有價值的問題。

作者比較了哪些資訊抽取方法?

這篇論文不只是單純把 prompt 丟進 LLM,而是比較了幾種不同策略來優化資訊抽取:

  • Prompt Engineering
  • Guidance Framework
  • Fine-tuning

這裡的比較非常關鍵,因為它回答了一個實務上很常見的問題:到底要靠 prompt 調整就好,還是要再往 fine-tuning 走,甚至搭配額外的抽取控制框架?

根據摘要,作者觀察到:

  • Guidancefine-tuning 的表現優於單純 prompt engineering
  • 單靠 prompt engineering 雖然可行,但效果相對較弱

這個結果很有參考價值,因為它說明在 CTI 抽取這類結構化要求很高的任務中,單靠 prompt 不一定足夠,若要提高可用性,仍可能需要更強的約束或額外訓練。

Knowledge Graph 在這篇論文中的角色是什麼?

Knowledge Graph 在這篇論文中扮演的角色,不只是儲存抽取結果,而是讓原本零散的 CTI 內容變成一個 結構化、可查詢、可延伸 的知識表示。

這樣的轉換有幾個明顯好處:

  • 讓 CTI 可以從長篇文字敘述轉成結構化 triples
  • 更容易做查詢與交叉比對
  • 更容易與其他圖資料或威脅知識整合
  • 能作為後續圖分析與 link prediction 的基礎

因此,這篇論文其實不只是談「抽資訊」,而是在談「如何把抽出的資訊放進一個更有長期價值的知識結構中」。

這篇論文為什麼強調 actionable CTI?

很多 CTI 研究做到某個階段,往往只停在「抽到了很多東西」。但作者很清楚地把研究目標放在 actionable 上,也就是希望抽出來的知識不是只有看起來漂亮,而是能真正支援後續威脅理解與資安決策。

從這篇論文的脈絡來看,所謂 actionable,至少意味著:

  • 知識要能被結構化表示
  • 知識要能被查詢與重複利用
  • 知識圖要有助於後續關聯分析
  • 不能只是抽出一堆片段,卻無法支援防禦與調查

這也是這篇論文比單純的 NER 或 relation extraction work 更值得注意的地方。

實驗結果:作者想證明什麼?

根據摘要,作者的實驗主要證明兩件事:

  • LLM 確實能有效從 CTI 文本中抽取有意義的資訊
  • Guidance 與 fine-tuning 比單純 prompt engineering 更有效

但作者也沒有過度樂觀。論文明確指出,雖然這些方法在小規模測試上有效,但一旦進到大規模資料與更完整的 Knowledge Graph 建構場景,仍然存在不少挑戰,尤其包括:

  • 大規模資料處理成本
  • 圖建構品質穩定性
  • Link Prediction 難度
  • 大模型應用到實務時的成本與泛化問題

這點反而讓這篇研究看起來更可信,因為作者沒有把結果包裝成「問題已全部解決」,而是誠實指出目前成效與限制。

這篇論文的價值在哪裡?

如果把這篇論文放在 CTI × AI 的脈絡裡來看,它的價值主要有三個層次:

  • 它證明 LLM 已經能在 CTI 文字抽取任務上發揮作用
  • 它把抽取結果進一步轉成 Knowledge Graph,而不是停留在表面資訊抽取
  • 它明確指出未來若要走向實務部署,還需要解決大規模 KG construction 與 link prediction 的挑戰

也就是說,這篇論文不只是展示一個技術 demo,而是在描繪一條從 CTI 文本到結構化知識,再到更高階威脅分析的路徑。

重點整理

  • 這篇論文聚焦在 actionable CTI 的自動抽取與結構化表示。
  • 作者結合 開源 LLMKnowledge Graph 來處理非結構化 CTI 文本。
  • 測試模型包括 Llama 2、Mistral 7B Instruct 與 Zephyr。
  • 比較策略包括 prompt engineering、guidance framework 與 fine-tuning。
  • 結果顯示 guidance 與 fine-tuning 優於單純 prompt engineering。
  • 這篇研究的重點不只是抽 triples,而是讓情資能進一步變成可查詢、可分析的 Knowledge Graph。
  • 作者也誠實指出,大規模圖建構與 link prediction 仍是後續挑戰。

Takeaway

這篇論文最值得記住的一點,是它把 CTI 的 AI 化從「文字抽取」往前推進到「可行動知識圖建構」這一步。它不是只證明 LLM 能從報告中找出資訊,而是更進一步把這些資訊整理成 Knowledge Graph,讓 CTI 真正朝向可查詢、可分析、可擴充的方向發展。

如果你關心的是 AI 到底如何真正進入 CTI 流程,這篇論文給出了一個很清楚的答案:LLM 可以成為抽取引擎,但若要讓結果真的具備實務價值,仍必須搭配結構化知識表示與後續圖分析能力。

免責聲明

本文由 AI 整理與撰寫,內容主要依據公開論文、技術文件與可取得之研究資料進行彙整、解讀與摘要。儘管已盡力確保內容之完整性與可讀性,仍可能因模型理解限制、資料來源差異或語意轉譯過程而存在疏漏、不精確或更新延遲之處。本文內容僅供研究交流與知識分享參考,實際技術細節、實驗設定與最終結論,仍應以原始論文、官方文件及作者公開資料為準。

You may also like