論文閱讀分析:用大型語言模型與威脅情資推進自動化事件回應
論文基本資訊
- 論文標題:Advancing Autonomous Incident Response: Leveraging LLMs and Cyber Threat Intelligence
- 作者:Amine Tellache、Abdelaziz Amara Korba、Amdjed Mokhtari、Horea Moldovan、Yacine Ghamri-Doudane
- 年份:2025
- 來源:arXiv
- 論文連結:https://arxiv.org/abs/2508.10677
- 主題:Incident Response、CTI、RAG、LLM、SIEM、Alert Enrichment、Response Generation
這篇 Advancing Autonomous Incident Response: Leveraging LLMs and Cyber Threat Intelligence 討論的不是單純「用 LLM 幫忙看報告」,而是更直接的問題:能不能把 CTI 檢索、告警脈絡化、以及 incident response 建議生成,串成一個可實際降低 SOC 負擔的自動化流程?
作者瞄準的痛點非常明確。SOC 每天要面對大量告警、誤報、碎片化的 CTI 文件,以及需要跨平台查 IOC 的繁瑣流程。CTI 本身不是沒有價值,而是太多、太散、太難即時消化。所以這篇論文的重點不在重新訓練一個資安專用大模型,而是用 RAG + 外部 CTI 檢索 把最新威脅情報即時接到 incident response 流程裡。
研究問題
作者想回答的核心問題可以拆成三個:
- 如何把零散的 CTI 直接轉成 incident response 可用的上下文?
- 如何讓 LLM 不只摘要情資,而是產出具體、可執行的 response strategy?
- 如何在不頻繁 fine-tune 的前提下,持續吸收新的 CTI 與新型威脅?
這個問題設定很重要,因為它和許多只做「威脅摘要」或「ATT&CK mapping」的工作不同。這篇論文真正想做的是把 CTI 從被動參考資料,提升成 incident response workflow 的即時增強層。
核心方法:雙軌檢索的 RAG 型 Incident Response 架構
作者提出的系統可以分成兩個主要階段:
- Retrieval:先替告警補足脈絡
- Augmented Generation:再用 LLM 產生回應與處置建議
其中最值得注意的是,它不是只有一個向量資料庫檢索,而是採用雙軌檢索機制:
- 標準化查詢:對 IOC 做 parser,抽出 IP、domain、hash、URL,再去 VirusTotal 這類 CTI 平台查詢
- NLP 相似度檢索:把 CTI PDF 報告切 chunk、轉 embedding,存進向量資料庫,從歷史情資文件中找相似脈絡
這個設計很務實。因為在真實環境裡,光查 VT 只能得到相對結構化但有限的 IOC 背景;光做語意檢索則可能缺少標準化 reputational context。把兩者合起來,才比較接近 analyst 真正在做的 enrichment 工作。
方法細節一:Knowledge Base 建置
論文的 CTI 知識庫主要來自公開的 APT 與 cybercriminal campaign reports。作者先把 PDF 轉成文字,再做 chunking 與 embedding,最後放進向量資料庫。
這裡的技術路線並不花俏,但非常合理:
- PDF 轉文字
- 長文切成 chunks
- 用 Transformer-based embeddings 向量化
- 存入 Chroma vector database
作者也提到未來希望直接整合 OpenCTI。如果真的落地,這會比純論文 PDF 知識庫更接近企業 CTI pipeline,因為 OpenCTI 裡會有 STIX 物件、關聯圖譜、campaign / intrusion set / malware / indicator 關係等更可操作的資料結構。
方法細節二:告警增強與相似度檢索
這篇論文的一個關鍵技巧,是它不直接拿原始 SIEM alert 去做語意檢索,而是先讓 LLM 根據初步標準查詢結果,生成一個 augmented alert。也就是說,系統先把原始告警與初步 IOC 查詢得到的資料做整合,再轉成更適合做 similarity search 的查詢表示。
這背後的邏輯是對的:很多原始告警其實訊息很碎,單靠 log text 很難在 CTI 報告庫裡找到好脈絡。先做一次結構化補充,再做語義檢索,通常會比直接拿 alert 原文去查效果更好。
文中明確給出相似度計算方式,採用標準的 cosine similarity:
similarity(A, B) = (A · B) / (||A|| × ||B||)
也就是把 alert/query embedding 與 CTI chunk embedding 做向量相似度比對,分數越接近 1,代表語義越接近。
方法細節三:Augmented Generation 與回應策略生成
完成 retrieval 後,系統會把下列資訊一起送進最終 LLM:
- 原始 SIEM alert
- 從 VirusTotal 這類平台查到的 IOC 脈絡
- 從 CTI 報告向量庫找出的相關 chunk
接著透過設計過的 prompt,要求模型生成 incident response strategy。這點很重要,因為輸出不是一般性的說明文字,而是偏向:
- 這起事件可能代表什麼威脅
- 有哪些已知脈絡可以支撐這個判斷
- 應該採取哪些處置步驟
作者實作上使用 GPT 系列模型作為最終生成器,原因也很現實:context window 夠大,適合把 alert + CTI chunks + IOC enrichment 一次塞進去。
實驗設計
實驗分成兩種資料來源:
- 100 筆真實世界 SIEM alerts:來自公司環境中的 LogPoint SIEM
- 10 筆模擬 alerts:在隔離測試環境中用 Caldera 模擬攻擊,再由 ELK / 偵測規則產生告警
模擬環境部分也寫得很完整。作者使用:
- Proxmox 作為虛擬化平台
- ELK stack 作為 SIEM
- Caldera 執行 MITRE ATT&CK 導向的攻擊模擬
- Windows 與 Linux 目標機
- Elastic Defend 收集安全事件
模擬攻擊涵蓋了多個 ATT&CK techniques,例如:
- T1119 Automated Collection
- T1560.001 Archive Collected Data
- T1041 Exfiltration Over C2 Channel
- T1057 Process Discovery
- T1055.002 Process Injection
- T1003.008 OS Credential Dumping
這種設計的好處是:真實告警可以測實務價值,模擬告警則能在「已知 ground truth」條件下驗證系統到底有沒有真的抓到重點。
評估方法
作者不是只看「回答好不好看」,而是用三個 RAG 常見但很關鍵的面向來評估:
- Answer Relevance:回答是否切中問題
- Context Relevance:檢索到的 context 是否真的相關
- Groundedness:回答是否有被檢索證據支撐
評分方式採雙層驗證:
- 先用其他 LLM 自動評分(1 到 5 分)
- 再由資安專家人工驗證,以確認自動評分是否可信
這種作法雖然仍有 LLM-as-a-judge 的限制,但比只給幾個例子說「看起來不錯」紮實得多。
實驗結果:真實世界告警
在 100 筆真實 SIEM alerts 上,系統整體表現有一個很清楚的輪廓:
- Answer Relevance 很高:各模型平均幾乎接近 5 分
- Groundedness 也高:平均超過 4 分
- Context Relevance 相對較低:表示不是每一則 alert 都能在 VT 或 CTI 文件裡找到夠好的支撐脈絡
文中提供了幾組代表性的平均分數:
- Mistral-large:Answer Relevance 4.97、Context Relevance [VT+CTI] 3.15、Groundedness 4.53
- Llama-3.2-3B:Answer Relevance 4.26、Context Relevance [VT+CTI] 3.35、Groundedness 4.19
- Llama-3.1-70B:Answer Relevance 4.95、Context Relevance [VT+CTI] 3.62、Groundedness 4.51
這組結果很有意思。它表示生成品質與 groundedness 已經不差,但檢索端仍是主要瓶頸。也就是說,LLM 不是最弱的一環,context coverage 才是。作者也明確指出原因可能包括:
- 資料集中存在 false positives
- 部分 IOC 在 VirusTotal 上找不到足夠資料
- CTI 文件本身對特定 campaign 的細節覆蓋有限
實驗結果:模擬告警與人工驗證
在 10 筆模擬 alerts 上,context relevance 比真實資料更好,這不意外,因為這批資料本來就是真陽性且攻擊來源已知。論文指出自動評估結果與前面大致一致:
- Answer Relevance 仍接近滿分
- Groundedness 超過 4 分
- Context Relevance 明顯提升
這部分的價值在於:作者不是只用真實資料做模糊評估,而是額外用有 ground truth 的環境檢查自動評分是否可靠。這讓他們後續想把 LLM-based evaluation 當成自動過濾器時,比較站得住腳。
這篇論文的主要貢獻
我會把這篇論文的貢獻整理成四點:
- 把 CTI enrichment 與 IR generation 串成單一流程,而不是只做摘要或分類
- 提出雙軌檢索架構:標準 IOC 查詢 + CTI 語意檢索
- 避免頻繁 fine-tune,改靠 RAG 持續吸收新 CTI
- 採用自動評分 + 專家交叉驗證 的雙層評估方式
特別是第二點,很值得注意。很多資安 RAG 研究只強調向量檢索,但真正的 incident response 場景裡,IOC reputation / sandbox / threat feed 這些結構化來源同樣重要。這篇論文沒有把兩者對立,而是把它們合併,這是對的。
限制與可改進處
當然,這篇論文也有幾個明顯限制:
- 生成模型依賴度高:最終 response plan 仍高度仰賴大型生成模型品質與成本
- 檢索來源仍偏有限:主要示範 VirusTotal 與 APT PDF reports,離企業完整 CTI 生態還有距離
- context relevance 仍是短板:代表知識庫密度與檢索策略還有很大優化空間
- 對 actionability 的評估仍偏語義層:目前比較像「建議是否合理」,還不是「實際執行後是否真的改善 MTTR」
換句話說,這篇論文證明了 LLM + CTI 可以把 incident response 建議寫得更像樣,但距離「真正自治的 response orchestration」還差幾步,尤其是 playbook execution、審計、安全控制與防 prompt injection 這些議題都還沒完全展開。
與既有 CTI/AI 論文脈絡的關係
如果把這篇放進最近這批 CTI/AI 論文裡,它的位置很清楚:
- CTINexus / KnowCTI 偏向 CTI 抽取與知識建模
- TechniqueRAG / RAGRecon / CyberRAG 偏向分析、說明與分類
- 這篇則更往 Incident Response 執行層靠近
也就是說,它的重點不只是理解威脅,而是把威脅理解轉成處置建議。這對 SOC / IR 團隊來說,實用價值會比單純的摘要或問答更高。
重點整理
- 本文提出一個用於 incident response 的 RAG-based CTI fusion framework。
- 系統採用雙軌檢索:一邊查 IOC / CTI 平台,一邊查 CTI 向量知識庫。
- 告警在檢索前會先被 LLM 增強成更適合做相似度搜尋的 augmented alert。
- 最終 LLM 根據 alert、IOC enrichment 與 CTI chunks 生成 incident response strategy。
- 實驗包含 100 筆真實 SIEM alerts 與 10 筆用 Caldera 模擬產生的 alerts。
- 整體結果顯示 Answer Relevance 與 Groundedness 表現強,但 Context Relevance 仍是主要瓶頸。
- 這篇研究的重要性在於,它把 CTI 從被動參考資料提升成 incident response 自動化流程中的即時增強元件。
若從實務角度來看,這篇論文最值得記住的一句話是:問題不只是讓模型懂 CTI,而是讓模型在告警出現的當下,能把 CTI 轉成可執行的處置脈絡。 這正是它的價值所在。
