論文閱讀分析：用大型語言模型與威脅情資推進自動化事件回應

2026 年 4 月 6 日

論文基本資訊

論文標題：Advancing Autonomous Incident Response: Leveraging LLMs and Cyber Threat Intelligence
作者：Amine Tellache、Abdelaziz Amara Korba、Amdjed Mokhtari、Horea Moldovan、Yacine Ghamri-Doudane
年份：2025
來源：arXiv
論文連結：https://arxiv.org/abs/2508.10677
主題：Incident Response、CTI、RAG、LLM、SIEM、Alert Enrichment、Response Generation

這篇 Advancing Autonomous Incident Response: Leveraging LLMs and Cyber Threat Intelligence 討論的不是單純「用 LLM 幫忙看報告」，而是更直接的問題：能不能把 CTI 檢索、告警脈絡化、以及 incident response 建議生成，串成一個可實際降低 SOC 負擔的自動化流程？

作者瞄準的痛點非常明確。SOC 每天要面對大量告警、誤報、碎片化的 CTI 文件，以及需要跨平台查 IOC 的繁瑣流程。CTI 本身不是沒有價值，而是太多、太散、太難即時消化。所以這篇論文的重點不在重新訓練一個資安專用大模型，而是用 RAG + 外部 CTI 檢索 把最新威脅情報即時接到 incident response 流程裡。

研究問題

作者想回答的核心問題可以拆成三個：

如何把零散的 CTI 直接轉成 incident response 可用的上下文？
如何讓 LLM 不只摘要情資，而是產出具體、可執行的 response strategy？
如何在不頻繁 fine-tune 的前提下，持續吸收新的 CTI 與新型威脅？

這個問題設定很重要，因為它和許多只做「威脅摘要」或「ATT&CK mapping」的工作不同。這篇論文真正想做的是把 CTI 從被動參考資料，提升成 incident response workflow 的即時增強層。

核心方法：雙軌檢索的 RAG 型 Incident Response 架構

作者提出的系統可以分成兩個主要階段：

Retrieval：先替告警補足脈絡
Augmented Generation：再用 LLM 產生回應與處置建議

其中最值得注意的是，它不是只有一個向量資料庫檢索，而是採用雙軌檢索機制：

標準化查詢：對 IOC 做 parser，抽出 IP、domain、hash、URL，再去 VirusTotal 這類 CTI 平台查詢
NLP 相似度檢索：把 CTI PDF 報告切 chunk、轉 embedding，存進向量資料庫，從歷史情資文件中找相似脈絡

這個設計很務實。因為在真實環境裡，光查 VT 只能得到相對結構化但有限的 IOC 背景；光做語意檢索則可能缺少標準化 reputational context。把兩者合起來，才比較接近 analyst 真正在做的 enrichment 工作。

方法細節一：Knowledge Base 建置

論文的 CTI 知識庫主要來自公開的 APT 與 cybercriminal campaign reports。作者先把 PDF 轉成文字，再做 chunking 與 embedding，最後放進向量資料庫。

這裡的技術路線並不花俏，但非常合理：

PDF 轉文字
長文切成 chunks
用 Transformer-based embeddings 向量化
存入 Chroma vector database

作者也提到未來希望直接整合 OpenCTI。如果真的落地，這會比純論文 PDF 知識庫更接近企業 CTI pipeline，因為 OpenCTI 裡會有 STIX 物件、關聯圖譜、campaign / intrusion set / malware / indicator 關係等更可操作的資料結構。

方法細節二：告警增強與相似度檢索

這篇論文的一個關鍵技巧，是它不直接拿原始 SIEM alert 去做語意檢索，而是先讓 LLM 根據初步標準查詢結果，生成一個 augmented alert。也就是說，系統先把原始告警與初步 IOC 查詢得到的資料做整合，再轉成更適合做 similarity search 的查詢表示。

這背後的邏輯是對的：很多原始告警其實訊息很碎，單靠 log text 很難在 CTI 報告庫裡找到好脈絡。先做一次結構化補充，再做語義檢索，通常會比直接拿 alert 原文去查效果更好。

文中明確給出相似度計算方式，採用標準的 cosine similarity：

similarity(A, B) = (A · B) / (||A|| × ||B||)

也就是把 alert/query embedding 與 CTI chunk embedding 做向量相似度比對，分數越接近 1，代表語義越接近。

方法細節三：Augmented Generation 與回應策略生成

完成 retrieval 後，系統會把下列資訊一起送進最終 LLM：

原始 SIEM alert
從 VirusTotal 這類平台查到的 IOC 脈絡
從 CTI 報告向量庫找出的相關 chunk

接著透過設計過的 prompt，要求模型生成 incident response strategy。這點很重要，因為輸出不是一般性的說明文字，而是偏向：

這起事件可能代表什麼威脅
有哪些已知脈絡可以支撐這個判斷
應該採取哪些處置步驟

作者實作上使用 GPT 系列模型作為最終生成器，原因也很現實：context window 夠大，適合把 alert + CTI chunks + IOC enrichment 一次塞進去。

實驗設計

實驗分成兩種資料來源：

100 筆真實世界 SIEM alerts：來自公司環境中的 LogPoint SIEM
10 筆模擬 alerts：在隔離測試環境中用 Caldera 模擬攻擊，再由 ELK / 偵測規則產生告警

模擬環境部分也寫得很完整。作者使用：

Proxmox 作為虛擬化平台
ELK stack 作為 SIEM
Caldera 執行 MITRE ATT&CK 導向的攻擊模擬
Windows 與 Linux 目標機
Elastic Defend 收集安全事件

模擬攻擊涵蓋了多個 ATT&CK techniques，例如：

T1119 Automated Collection
T1560.001 Archive Collected Data
T1041 Exfiltration Over C2 Channel
T1057 Process Discovery
T1055.002 Process Injection
T1003.008 OS Credential Dumping

這種設計的好處是：真實告警可以測實務價值，模擬告警則能在「已知 ground truth」條件下驗證系統到底有沒有真的抓到重點。

評估方法

作者不是只看「回答好不好看」，而是用三個 RAG 常見但很關鍵的面向來評估：

Answer Relevance：回答是否切中問題
Context Relevance：檢索到的 context 是否真的相關
Groundedness：回答是否有被檢索證據支撐

評分方式採雙層驗證：

先用其他 LLM 自動評分（1 到 5 分）
再由資安專家人工驗證，以確認自動評分是否可信

這種作法雖然仍有 LLM-as-a-judge 的限制，但比只給幾個例子說「看起來不錯」紮實得多。

實驗結果：真實世界告警

在 100 筆真實 SIEM alerts 上，系統整體表現有一個很清楚的輪廓：

Answer Relevance 很高：各模型平均幾乎接近 5 分
Groundedness 也高：平均超過 4 分
Context Relevance 相對較低：表示不是每一則 alert 都能在 VT 或 CTI 文件裡找到夠好的支撐脈絡

文中提供了幾組代表性的平均分數：

Mistral-large：Answer Relevance 4.97、Context Relevance [VT+CTI] 3.15、Groundedness 4.53
Llama-3.2-3B：Answer Relevance 4.26、Context Relevance [VT+CTI] 3.35、Groundedness 4.19
Llama-3.1-70B：Answer Relevance 4.95、Context Relevance [VT+CTI] 3.62、Groundedness 4.51

這組結果很有意思。它表示生成品質與 groundedness 已經不差，但檢索端仍是主要瓶頸。也就是說，LLM 不是最弱的一環，context coverage 才是。作者也明確指出原因可能包括：

資料集中存在 false positives
部分 IOC 在 VirusTotal 上找不到足夠資料
CTI 文件本身對特定 campaign 的細節覆蓋有限

實驗結果：模擬告警與人工驗證

在 10 筆模擬 alerts 上，context relevance 比真實資料更好，這不意外，因為這批資料本來就是真陽性且攻擊來源已知。論文指出自動評估結果與前面大致一致：

Answer Relevance 仍接近滿分
Groundedness 超過 4 分
Context Relevance 明顯提升

這部分的價值在於：作者不是只用真實資料做模糊評估，而是額外用有 ground truth 的環境檢查自動評分是否可靠。這讓他們後續想把 LLM-based evaluation 當成自動過濾器時，比較站得住腳。

這篇論文的主要貢獻

我會把這篇論文的貢獻整理成四點：

把 CTI enrichment 與 IR generation 串成單一流程，而不是只做摘要或分類
提出雙軌檢索架構：標準 IOC 查詢 + CTI 語意檢索
避免頻繁 fine-tune，改靠 RAG 持續吸收新 CTI
採用自動評分 + 專家交叉驗證 的雙層評估方式

特別是第二點，很值得注意。很多資安 RAG 研究只強調向量檢索，但真正的 incident response 場景裡，IOC reputation / sandbox / threat feed 這些結構化來源同樣重要。這篇論文沒有把兩者對立，而是把它們合併，這是對的。

限制與可改進處

當然，這篇論文也有幾個明顯限制：

生成模型依賴度高：最終 response plan 仍高度仰賴大型生成模型品質與成本
檢索來源仍偏有限：主要示範 VirusTotal 與 APT PDF reports，離企業完整 CTI 生態還有距離
context relevance 仍是短板：代表知識庫密度與檢索策略還有很大優化空間
對 actionability 的評估仍偏語義層：目前比較像「建議是否合理」，還不是「實際執行後是否真的改善 MTTR」

換句話說，這篇論文證明了 LLM + CTI 可以把 incident response 建議寫得更像樣，但距離「真正自治的 response orchestration」還差幾步，尤其是 playbook execution、審計、安全控制與防 prompt injection 這些議題都還沒完全展開。

與既有 CTI/AI 論文脈絡的關係

如果把這篇放進最近這批 CTI/AI 論文裡，它的位置很清楚：

CTINexus / KnowCTI 偏向 CTI 抽取與知識建模
TechniqueRAG / RAGRecon / CyberRAG 偏向分析、說明與分類
這篇則更往 Incident Response 執行層靠近

也就是說，它的重點不只是理解威脅，而是把威脅理解轉成處置建議。這對 SOC / IR 團隊來說，實用價值會比單純的摘要或問答更高。

重點整理

本文提出一個用於 incident response 的 RAG-based CTI fusion framework。
系統採用雙軌檢索：一邊查 IOC / CTI 平台，一邊查 CTI 向量知識庫。
告警在檢索前會先被 LLM 增強成更適合做相似度搜尋的 augmented alert。
最終 LLM 根據 alert、IOC enrichment 與 CTI chunks 生成 incident response strategy。
實驗包含 100 筆真實 SIEM alerts 與 10 筆用 Caldera 模擬產生的 alerts。
整體結果顯示 Answer Relevance 與 Groundedness 表現強，但 Context Relevance 仍是主要瓶頸。
這篇研究的重要性在於，它把 CTI 從被動參考資料提升成 incident response 自動化流程中的即時增強元件。

若從實務角度來看，這篇論文最值得記住的一句話是：問題不只是讓模型懂 CTI，而是讓模型在告警出現的當下，能把 CTI 轉成可執行的處置脈絡。 這正是它的價值所在。

論文閱讀分析：用大型語言模型與威脅情資推進自動化事件回應

論文基本資訊

研究問題

核心方法：雙軌檢索的 RAG 型 Incident Response 架構

方法細節一：Knowledge Base 建置

方法細節二：告警增強與相似度檢索

方法細節三：Augmented Generation 與回應策略生成

實驗設計

評估方法

實驗結果：真實世界告警

實驗結果：模擬告警與人工驗證

這篇論文的主要貢獻

限制與可改進處

與既有 CTI/AI 論文脈絡的關係

重點整理

發佈留言取消回覆

You may also like

近期文章

廣告

文章分類

近期留言

論文基本資訊

研究問題

核心方法：雙軌檢索的 RAG 型 Incident Response 架構

方法細節一：Knowledge Base 建置

方法細節二：告警增強與相似度檢索

方法細節三：Augmented Generation 與回應策略生成

實驗設計

評估方法

實驗結果：真實世界告警

實驗結果：模擬告警與人工驗證

這篇論文的主要貢獻

限制與可改進處

與既有 CTI/AI 論文脈絡的關係

重點整理

發佈留言 取消回覆

You may also like

Operationalising Cyber Risk Management 論文閱讀分析：當 ATT&CK 自動化真正要落地，後面就不能再斷在 technique label

Original Sin of npm 論文閱讀分析：很多 JavaScript 供應鏈真正危險的，不是你今天又裝了哪個新套件，而是那幾個老洞早就沿著 dependency graph 長成整片陰影

近期文章

廣告

文章分類

近期留言

發佈留言取消回覆