論文閱讀分析:用大型語言模型與威脅情資推進自動化事件回應

論文基本資訊

  • 論文標題:Advancing Autonomous Incident Response: Leveraging LLMs and Cyber Threat Intelligence
  • 作者:Amine Tellache、Abdelaziz Amara Korba、Amdjed Mokhtari、Horea Moldovan、Yacine Ghamri-Doudane
  • 年份:2025
  • 來源:arXiv
  • 論文連結:https://arxiv.org/abs/2508.10677
  • 主題:Incident Response、CTI、RAG、LLM、SIEM、Alert Enrichment、Response Generation

這篇 Advancing Autonomous Incident Response: Leveraging LLMs and Cyber Threat Intelligence 討論的不是單純「用 LLM 幫忙看報告」,而是更直接的問題:能不能把 CTI 檢索、告警脈絡化、以及 incident response 建議生成,串成一個可實際降低 SOC 負擔的自動化流程?

作者瞄準的痛點非常明確。SOC 每天要面對大量告警、誤報、碎片化的 CTI 文件,以及需要跨平台查 IOC 的繁瑣流程。CTI 本身不是沒有價值,而是太多、太散、太難即時消化。所以這篇論文的重點不在重新訓練一個資安專用大模型,而是用 RAG + 外部 CTI 檢索 把最新威脅情報即時接到 incident response 流程裡。

研究問題

作者想回答的核心問題可以拆成三個:

  1. 如何把零散的 CTI 直接轉成 incident response 可用的上下文?
  2. 如何讓 LLM 不只摘要情資,而是產出具體、可執行的 response strategy?
  3. 如何在不頻繁 fine-tune 的前提下,持續吸收新的 CTI 與新型威脅?

這個問題設定很重要,因為它和許多只做「威脅摘要」或「ATT&CK mapping」的工作不同。這篇論文真正想做的是把 CTI 從被動參考資料,提升成 incident response workflow 的即時增強層

核心方法:雙軌檢索的 RAG 型 Incident Response 架構

作者提出的系統可以分成兩個主要階段:

  1. Retrieval:先替告警補足脈絡
  2. Augmented Generation:再用 LLM 產生回應與處置建議

其中最值得注意的是,它不是只有一個向量資料庫檢索,而是採用雙軌檢索機制

  • 標準化查詢:對 IOC 做 parser,抽出 IP、domain、hash、URL,再去 VirusTotal 這類 CTI 平台查詢
  • NLP 相似度檢索:把 CTI PDF 報告切 chunk、轉 embedding,存進向量資料庫,從歷史情資文件中找相似脈絡

這個設計很務實。因為在真實環境裡,光查 VT 只能得到相對結構化但有限的 IOC 背景;光做語意檢索則可能缺少標準化 reputational context。把兩者合起來,才比較接近 analyst 真正在做的 enrichment 工作。

方法細節一:Knowledge Base 建置

論文的 CTI 知識庫主要來自公開的 APT 與 cybercriminal campaign reports。作者先把 PDF 轉成文字,再做 chunking 與 embedding,最後放進向量資料庫。

這裡的技術路線並不花俏,但非常合理:

  • PDF 轉文字
  • 長文切成 chunks
  • 用 Transformer-based embeddings 向量化
  • 存入 Chroma vector database

作者也提到未來希望直接整合 OpenCTI。如果真的落地,這會比純論文 PDF 知識庫更接近企業 CTI pipeline,因為 OpenCTI 裡會有 STIX 物件、關聯圖譜、campaign / intrusion set / malware / indicator 關係等更可操作的資料結構。

方法細節二:告警增強與相似度檢索

這篇論文的一個關鍵技巧,是它不直接拿原始 SIEM alert 去做語意檢索,而是先讓 LLM 根據初步標準查詢結果,生成一個 augmented alert。也就是說,系統先把原始告警與初步 IOC 查詢得到的資料做整合,再轉成更適合做 similarity search 的查詢表示。

這背後的邏輯是對的:很多原始告警其實訊息很碎,單靠 log text 很難在 CTI 報告庫裡找到好脈絡。先做一次結構化補充,再做語義檢索,通常會比直接拿 alert 原文去查效果更好。

文中明確給出相似度計算方式,採用標準的 cosine similarity:

similarity(A, B) = (A · B) / (||A|| × ||B||)

也就是把 alert/query embedding 與 CTI chunk embedding 做向量相似度比對,分數越接近 1,代表語義越接近。

方法細節三:Augmented Generation 與回應策略生成

完成 retrieval 後,系統會把下列資訊一起送進最終 LLM:

  • 原始 SIEM alert
  • 從 VirusTotal 這類平台查到的 IOC 脈絡
  • 從 CTI 報告向量庫找出的相關 chunk

接著透過設計過的 prompt,要求模型生成 incident response strategy。這點很重要,因為輸出不是一般性的說明文字,而是偏向:

  • 這起事件可能代表什麼威脅
  • 有哪些已知脈絡可以支撐這個判斷
  • 應該採取哪些處置步驟

作者實作上使用 GPT 系列模型作為最終生成器,原因也很現實:context window 夠大,適合把 alert + CTI chunks + IOC enrichment 一次塞進去。

實驗設計

實驗分成兩種資料來源:

  • 100 筆真實世界 SIEM alerts:來自公司環境中的 LogPoint SIEM
  • 10 筆模擬 alerts:在隔離測試環境中用 Caldera 模擬攻擊,再由 ELK / 偵測規則產生告警

模擬環境部分也寫得很完整。作者使用:

  • Proxmox 作為虛擬化平台
  • ELK stack 作為 SIEM
  • Caldera 執行 MITRE ATT&CK 導向的攻擊模擬
  • Windows 與 Linux 目標機
  • Elastic Defend 收集安全事件

模擬攻擊涵蓋了多個 ATT&CK techniques,例如:

  • T1119 Automated Collection
  • T1560.001 Archive Collected Data
  • T1041 Exfiltration Over C2 Channel
  • T1057 Process Discovery
  • T1055.002 Process Injection
  • T1003.008 OS Credential Dumping

這種設計的好處是:真實告警可以測實務價值,模擬告警則能在「已知 ground truth」條件下驗證系統到底有沒有真的抓到重點。

評估方法

作者不是只看「回答好不好看」,而是用三個 RAG 常見但很關鍵的面向來評估:

  • Answer Relevance:回答是否切中問題
  • Context Relevance:檢索到的 context 是否真的相關
  • Groundedness:回答是否有被檢索證據支撐

評分方式採雙層驗證:

  • 先用其他 LLM 自動評分(1 到 5 分)
  • 再由資安專家人工驗證,以確認自動評分是否可信

這種作法雖然仍有 LLM-as-a-judge 的限制,但比只給幾個例子說「看起來不錯」紮實得多。

實驗結果:真實世界告警

在 100 筆真實 SIEM alerts 上,系統整體表現有一個很清楚的輪廓:

  • Answer Relevance 很高:各模型平均幾乎接近 5 分
  • Groundedness 也高:平均超過 4 分
  • Context Relevance 相對較低:表示不是每一則 alert 都能在 VT 或 CTI 文件裡找到夠好的支撐脈絡

文中提供了幾組代表性的平均分數:

  • Mistral-large:Answer Relevance 4.97、Context Relevance [VT+CTI] 3.15、Groundedness 4.53
  • Llama-3.2-3B:Answer Relevance 4.26、Context Relevance [VT+CTI] 3.35、Groundedness 4.19
  • Llama-3.1-70B:Answer Relevance 4.95、Context Relevance [VT+CTI] 3.62、Groundedness 4.51

這組結果很有意思。它表示生成品質與 groundedness 已經不差,但檢索端仍是主要瓶頸。也就是說,LLM 不是最弱的一環,context coverage 才是。作者也明確指出原因可能包括:

  • 資料集中存在 false positives
  • 部分 IOC 在 VirusTotal 上找不到足夠資料
  • CTI 文件本身對特定 campaign 的細節覆蓋有限

實驗結果:模擬告警與人工驗證

在 10 筆模擬 alerts 上,context relevance 比真實資料更好,這不意外,因為這批資料本來就是真陽性且攻擊來源已知。論文指出自動評估結果與前面大致一致:

  • Answer Relevance 仍接近滿分
  • Groundedness 超過 4 分
  • Context Relevance 明顯提升

這部分的價值在於:作者不是只用真實資料做模糊評估,而是額外用有 ground truth 的環境檢查自動評分是否可靠。這讓他們後續想把 LLM-based evaluation 當成自動過濾器時,比較站得住腳。

這篇論文的主要貢獻

我會把這篇論文的貢獻整理成四點:

  1. 把 CTI enrichment 與 IR generation 串成單一流程,而不是只做摘要或分類
  2. 提出雙軌檢索架構:標準 IOC 查詢 + CTI 語意檢索
  3. 避免頻繁 fine-tune,改靠 RAG 持續吸收新 CTI
  4. 採用自動評分 + 專家交叉驗證 的雙層評估方式

特別是第二點,很值得注意。很多資安 RAG 研究只強調向量檢索,但真正的 incident response 場景裡,IOC reputation / sandbox / threat feed 這些結構化來源同樣重要。這篇論文沒有把兩者對立,而是把它們合併,這是對的。

限制與可改進處

當然,這篇論文也有幾個明顯限制:

  • 生成模型依賴度高:最終 response plan 仍高度仰賴大型生成模型品質與成本
  • 檢索來源仍偏有限:主要示範 VirusTotal 與 APT PDF reports,離企業完整 CTI 生態還有距離
  • context relevance 仍是短板:代表知識庫密度與檢索策略還有很大優化空間
  • 對 actionability 的評估仍偏語義層:目前比較像「建議是否合理」,還不是「實際執行後是否真的改善 MTTR」

換句話說,這篇論文證明了 LLM + CTI 可以把 incident response 建議寫得更像樣,但距離「真正自治的 response orchestration」還差幾步,尤其是 playbook execution、審計、安全控制與防 prompt injection 這些議題都還沒完全展開。

與既有 CTI/AI 論文脈絡的關係

如果把這篇放進最近這批 CTI/AI 論文裡,它的位置很清楚:

  • CTINexus / KnowCTI 偏向 CTI 抽取與知識建模
  • TechniqueRAG / RAGRecon / CyberRAG 偏向分析、說明與分類
  • 這篇則更往 Incident Response 執行層靠近

也就是說,它的重點不只是理解威脅,而是把威脅理解轉成處置建議。這對 SOC / IR 團隊來說,實用價值會比單純的摘要或問答更高。

重點整理

  • 本文提出一個用於 incident response 的 RAG-based CTI fusion framework
  • 系統採用雙軌檢索:一邊查 IOC / CTI 平台,一邊查 CTI 向量知識庫。
  • 告警在檢索前會先被 LLM 增強成更適合做相似度搜尋的 augmented alert。
  • 最終 LLM 根據 alert、IOC enrichment 與 CTI chunks 生成 incident response strategy。
  • 實驗包含 100 筆真實 SIEM alerts 與 10 筆用 Caldera 模擬產生的 alerts。
  • 整體結果顯示 Answer Relevance 與 Groundedness 表現強,但 Context Relevance 仍是主要瓶頸
  • 這篇研究的重要性在於,它把 CTI 從被動參考資料提升成 incident response 自動化流程中的即時增強元件。

若從實務角度來看,這篇論文最值得記住的一句話是:問題不只是讓模型懂 CTI,而是讓模型在告警出現的當下,能把 CTI 轉成可執行的處置脈絡。 這正是它的價值所在。

You may also like