IRCopilot 論文閱讀分析:用大型語言模型自動化 Incident Response

論文基本資訊

  • 論文標題:IRCopilot: Automated Incident Response with Large Language Models
  • 作者:Xihuan Lin、Jie Zhang、Gelei Deng、Tianzhe Liu、Tianwei Zhang、Qing Guo、Riqing Chen
  • 會議:ACM CCS 2025
  • 年份:2025
  • arXiv:https://arxiv.org/abs/2505.20945
  • 主題:Incident Response、LLM、SOC Automation、Security Operations、AI for Security

如果前面幾篇 sectools.tw 的文章,比較多集中在 CTI 抽取、RAG 問答、威脅歸因、知識圖譜,那這篇 IRCopilot 值得看的地方,在於它把焦點往後推了一步:不是只幫你理解威脅,而是直接介入事件處置(incident response)流程。

這件事很重要。因為資安現場真正最缺的,通常不是「再多一個知道很多名詞的模型」,而是 在告警發生後,能不能把分析、判斷、執行建議與修復步驟串成一條實際可用的流程。IRCopilot 正是在回答這個問題。

作者先建立一個以真實 IR 任務為基礎的 benchmark,證明目前主流 LLM 直接拿來做 incident response 其實有不少問題;接著再提出一套 四個 LLM session component 協作 的框架,讓模型分工完成規劃、生成、分析與反思。這種設計的核心精神很清楚:不要把 IR 當成單輪問答,而要把它當成一個需要角色分工、迭代修正與上下文管理的動態工作流。

研究問題:這篇論文想解決什麼?

作者的問題意識其實很務實。今天大家都知道 LLM 在文字理解、摘要、知識查詢、程式輔助方面很強,但真要把它放進 IR 現場,馬上會遇到幾個問題:

  • 上下文容易遺失:事件處置往往跨多步驟、多證據來源,不是單輪 prompt 能解決
  • 容易產生 hallucination:若命令、判斷或處置建議錯了,代價遠高於一般問答任務
  • 缺少場景化決策能力:IR 不是單純回答「是什麼」,而是要回答「下一步應該做什麼」
  • 隱私與敏感資訊風險:事件處置常涉及 log、主機資訊、帳號、網段與內部細節

因此,這篇論文真正要回答的是:

大型語言模型能不能從「看起來懂資安」進一步變成「真的能協助事件應變」?如果可以,需要什麼樣的任務設計、分工架構與評測方式?

這也是為什麼 IRCopilot 不是只提出一個 system,而是同時提出兩個核心貢獻:

  • 一個 incident response benchmark
  • 一套可操作的 LLM-based IR framework

先做 Benchmark:為什麼這一步很關鍵?

很多「AI for Security」論文的問題,是 system demo 很炫,但評估很薄。IRCopilot 倒是先從評估做起。作者認為,若連 incident response 到底要怎麼衡量 都講不清楚,那後面任何自動化主張都很容易流於 impressionistic demo。

因此他們建立了一個 IR benchmark,涵蓋三個常見平台:

  • TryHackMe
  • XuanJi
  • ZGSF

總共包含:

  • 12 個 case machines
  • 130 個 sub-tasks

這些任務被映射到 NIST 3.0 所對應的 IR 三大階段:

  • Detect
  • Respond
  • Recover

這個 benchmark 的價值很高,因為它讓 IR 不再只是一句抽象的「幫我處理事件」,而是拆成可觀察、可比對、可量化的子任務。對研究與實務都很重要:你才能知道模型到底是卡在辨識、推理、指令生成,還是卡在多步驟上下文維持。

作者先證明一件事:直接拿 LLM 做 IR,效果其實不夠好

在提出 IRCopilot 之前,作者先做了探索性評估,直接測試多個現成 LLM 在 IR benchmark 上的表現,包括:

  • GPT-4
  • GPT-4o
  • Claude-3.5-Sonnet
  • GPT-o1
  • DeepSeek-V3

結果並不意外,但很有說服力:這些模型即使語言能力很強,遇到真實的 incident response 任務仍然會出現系統性短板。 作者整理出的主要問題包括:

  • 不容易制定正確的 response strategy
  • 會產生不精確甚至錯誤的指令建議
  • 容易忽略關鍵細節與證據鏈
  • 長流程任務中的記憶保持能力不足
  • 在敏感資料處理上存在風險

這個部分很值得 sectools.tw 讀者注意,因為它提醒我們:把 LLM 接進 SOC 或 IR 流程,不是 prompt 調一調就好。 問題不只在模型知不知道答案,而在它能不能穩定、連續、場景化地完成處置工作。

IRCopilot 的核心想法:把 IR 拆成角色分工,而不是單一 Agent 硬幹到底

IRCopilot 最值得看的地方,就是它沒有把所有責任丟給同一個 LLM。作者提出的是一個 四角色協作式架構

  • Planner:負責整體規劃與任務拆解
  • Generator:負責根據規劃生成具體操作與執行方案
  • Analyst:負責分析執行結果、判斷目前狀態與後續方向
  • Reflector:負責整體回顧與修正,形成持續優化閉環

整體上,它對應三種思考階段:

Reasoning → Action → Reflection

這個設計背後的邏輯其實很像真正的 incident response 團隊:不是一個人從判斷、下命令、驗證結果、修正策略全部一口氣做完,而是透過不同角色分工,降低失誤、減少上下文混亂,並提升多步驟任務的一致性。

換句話說,IRCopilot 的真正貢獻不是「又一個 multi-agent」,而是它把 IR workflow 的組織邏輯 映射進 LLM system design。這比單純喊 agentic AI 更有內容。

四個角色各自做什麼?

1. Planner:先決定方向,不急著下指令

Planner 的工作,是在面對 incident 時先回答:這個事件目前最該處理的是什麼?整體任務要怎麼拆?先後順序為何?

這一步很重要,因為很多 LLM 失敗,不是因為不懂單一步驟,而是從一開始就把整個事件理解錯、順序排錯、優先級判錯。作者等於是先把「策略規劃」從「命令生成」中抽離,避免模型一看到問題就直接開始亂下指令。

2. Generator:把抽象策略轉成可執行操作

當 Planner 已經把任務拆開,Generator 才負責輸出更具體的執行方案,例如要看哪些 artefacts、要蒐集哪些證據、應採取哪些調查或處置步驟。

這種分工的優勢是:每次 Generator 處理的是局部子任務,而不是整包 incident context。作者認為這能有效降低 attention / memory 壓力,也減少模型在長流程中越走越偏的問題。

3. Analyst:看結果,不只是產生下一句

Analyst 不是單純摘要輸出,而是負責分析執行後得到的資訊,判斷目前證據支持什麼結論、還缺什麼、後續要回饋 Planner 哪些新判斷。

這個角色的存在,讓 system 不會變成單向流水線,而是能根據新資訊修正策略。這很符合真實 IR:很多時候你不是照著 runbook 一路到底,而是邊查邊調整。

4. Reflector:避免錯誤一路滾大

Reflector 則比較像品質控制與後設檢查。它會回顧整體執行過程、整合多來源資訊,提出可能的改進方向與修正建議。

從工程角度看,這等於是把「self-correction」顯式模組化。對 IR 這種高風險任務來說,這比一般聊天任務更有必要,因為錯的建議不只是答非所問,而可能真的影響調查與修復節奏。

這種架構到底改善了什麼?

作者的主張是,透過職責切分與不同 prompt 設計,IRCopilot 可以更好地處理以下問題:

  • 降低 hallucination:因為每個角色處理的責任範圍更清楚
  • 減少 context loss:因為整體流程被拆成更小、更可控的步驟
  • 提升決策合理性:Planner 與 Analyst 形成策略規劃與結果分析閉環
  • 改善多步驟任務成功率:不再讓模型直接 zero-shot 整條 incident response sequence

這背後其實反映一個很關鍵的觀點:IR 不是純知識問答,而是有狀態轉移、有優先級、有風險控管的動態決策過程。 所以系統設計必須針對 workflow,而不只是針對文本生成。

實驗結果:IRCopilot 比直接用 baseline LLM 好多少?

根據論文摘要與內文,IRCopilot 在 benchmark 上相對於直接使用 baseline LLM,有很明顯的提升。作者報告的 sub-task completion rate 改善幅度包括:

  • 相對 GPT-4:150%
  • 相對 DeepSeek-V3:138%
  • 相對 GPT-4o:136%
  • 相對 Claude-3.5-Sonnet:119%
  • 相對 GPT-o1:114%

這些數字要怎麼解讀?我認為重點不是「誰贏幾個百分點」而已,而是:只靠換更強的模型,改善有限;但把流程設計與角色分工做好,改善幅度反而更顯著。

這也是這篇論文對產業界最有價值的提醒:未來 SOC/IR 自動化的競爭力,很可能不只是模型本身,而是 workflow orchestration + task decomposition + validation loop

不只在 benchmark 上測,還拿去真實情境驗證

作者沒有只停在 benchmark score。論文還提到,IRCopilot 進一步在公開 incident response 平台與真實攻擊案例中做驗證,包含:

  • TryHackMe
  • XuanJi
  • ZGSF
  • 5 個 real-world network attack cases

結果顯示,IRCopilot 能在多數任務中有效完成事件處置相關工作,並從真實攻擊案例中辨識與提取關鍵痕跡與資訊。這點很關鍵,因為它代表系統不是只在 toy problem 上成功,而是至少開始接近實戰驗證。

當然,我會保守看待「接近實戰」這幾個字。因為真正企業現場的 IR,比賽平台或研究案例還多了:

  • 組態差異
  • 權限限制
  • 誤判成本
  • 合規要求
  • 跨團隊協作摩擦

不過就研究論文來說,IRCopilot 已經比很多只做單點任務的 paper 更接近 operational reality。

這篇論文真正有意思的地方,不只是「自動化」兩個字

我認為 IRCopilot 最有價值的地方,是它把 incident response 問題重新定義成一種 有角色、有階段、有反饋迴路的 AI 協作系統,而不是把 LLM 當成一個單純生成器。

這個方向為什麼重要?因為在資安領域,很多工作都不是單步分類題。它們更像:

  • 收集證據
  • 建立假設
  • 驗證假設
  • 選擇風險最低但有效的處置方案
  • 持續修正策略

這種工作天生就比較適合 workflow-based AI,而不是 one-shot AI。IRCopilot 正好提供了一個具體範例:如何把 LLM 系統設計得更像一支 incident response team,而不是一個會說話的搜尋框。

限制與風險:這篇論文還沒解決什麼?

雖然這篇論文很值得看,但也不能把它想得太完美。至少有幾個限制值得記住:

  • 仍高度依賴 backbone LLM 能力:分工可以緩解問題,但不會把弱模型變成強模型
  • 評估仍以研究環境為主:真實企業 IR 的合規、權限、流程約束更複雜
  • 錯誤建議的風險仍存在:尤其在命令生成與場景判斷上,需要人類審核
  • 敏感資料處理仍是關鍵議題:IR 場景天然涉及大量內部資訊,不是每個組織都能放心把 context 丟進外部模型

換句話說,IRCopilot 並不是在說「AI 已經可以完全接管 incident response」,而是在說:若要讓 LLM 真正進入 IR 流程,系統設計必須比一般問答應用嚴謹得多。

對 SOC / CSIRT 實務的啟示

如果從實務角度看,這篇論文至少提供了幾個值得帶回去思考的方向:

  • 不要把 IR 助理做成單一聊天介面,而要有規劃、執行、驗證、反思等模組
  • 先定義可量化的 IR 子任務,再談自動化,不然很難知道 AI 到底幫了什麼
  • 人類 analyst 仍應保留最終裁決權,尤其在 containment、eradication、recovery 等高風險步驟
  • 模型能力之外,流程治理更重要:包含資料治理、審計、權限、回溯與安全防護

如果你正在設計 SOC Copilot、IR assistant、或任何安全自動化代理系統,IRCopilot 的價值就在這裡:它提供的不是一句「用 agent 就好」,而是比較接近一套可以被拆解、被討論、被落地的設計框架。

重點整理

  • IRCopilot 聚焦的是 automated incident response,不是單純 CTI 問答或威脅摘要。
  • 作者先建立一個涵蓋 3 個平台、12 個 case machines、130 個 sub-tasks 的 IR benchmark。
  • 研究顯示,直接使用現成 LLM 做 IR,會遭遇 context loss、hallucination、策略錯誤與隱私風險
  • IRCopilot 採用 Planner、Generator、Analyst、Reflector 四角色協作架構。
  • 這套系統把 IR 流程拆成 reasoning、action、reflection 三大階段,降低單一模型承擔全部工作的壓力。
  • 在 benchmark 上,IRCopilot 相對多個 baseline LLM 都有明顯提升,最高達 150% 的 sub-task completion rate 改善。
  • 它的真正價值在於:把 LLM 應用從「會回答」推進到「能協助處置」

Takeaway

如果要用一句話總結這篇論文,我會這樣寫:

IRCopilot 的重點,不是證明 LLM 已經能全面取代 incident responder,而是證明:當你把事件應變視為一個需要規劃、執行、驗證與反思的工作流時,LLM 才開始真正接近可用。

對 sectools.tw 這類讀者來說,這篇 paper 很值得關注,因為它比很多泛泛而談的「AI for SOC」內容更踏實。它沒有假裝所有問題都解決了,而是很清楚地指出:要讓 AI 進入資安實戰流程,關鍵不只是模型更大,而是 system design 要更像真正的安全團隊。

免責聲明

本文由 AI 整理與撰寫,內容主要依據公開論文、技術文件與可取得之研究資料進行彙整、解讀與摘要。儘管已盡力確保內容之完整性與可讀性,仍可能因模型理解限制、資料來源差異或語意轉譯過程而存在疏漏、不精確或更新延遲之處。本文內容僅供研究交流與知識分享參考,實際技術細節、實驗設定與最終結論,仍應以原始論文、官方文件及作者公開資料為準。

You may also like