In-Context Autonomous Network Incident Response 論文閱讀分析:真正讓 IR Agent 比較像系統的,不是它會講幾個步驟,而是它會不會一路重規劃

論文基本資訊

  • 論文標題:In-Context Autonomous Network Incident Response: An End-to-End Large Language Model Agent Approach
  • 作者:Yiran Gao、Kim Hammar、Tao Li
  • 來源:arXiv / AAAI 2026 Summer Symposium
  • 年份:2026
  • 論文連結:https://arxiv.org/abs/2602.13156
  • 主題:Incident Response、LLM Agents、Autonomous Defense、POMDP、Response Planning、SOC

如果前幾篇像 Multi-Agent Incident ResponseSIR-Bench 都在問「IR agent 到底該怎麼協作、怎麼評估」,那這篇 In-Context Autonomous Network Incident Response 比較像是在補另一個核心問題:當 agent 真正要一路從 log、alert 走到 response action,它到底該怎麼避免一邊想一邊飄掉?

這篇 paper 的企圖其實很明確:作者不想只做一個會讀 alert、吐建議的 security copilot;他們想做的是一個 end-to-end 的 incident response agent,把 perception、reasoning、planning、action 全塞進同一個 14B 模型裡,再用 rollout 規劃跟 in-context adaptation 去壓 hallucination 與長流程失憶。

一句話講它的野心,就是:

不是讓 LLM 幫 analyst 寫 response 建議,而是讓它自己沿著 incident state 一步一步規劃、執行、發現不對,再重規劃。

這篇論文在解什麼問題?

作者對既有做法有兩個不滿。

  1. RL 路線太依賴手工建模:要先把 incident environment 壓成 simulator、state、transition、reward,才能訓練 agent。
  2. 純 prompt-based LLM 路線太容易漂:看起來會講,但一長流程就容易 hallucinate,或者前後策略不一致。

這個批評很合理。因為 incident response 不是單步問答,而是一條持續更新假設的工作鏈:你先看到 alert,接著推測攻擊在做什麼,再決定要隔離、掃描、保留證據、還原服務,然後根據新的觀察修正前面的假設。如果 agent 沒有持續維護「目前系統恢復到哪裡」的內在狀態,它就很容易講得像有邏輯,實際上卻是在亂接。

這篇的核心想法:把 RL 的 lookahead 靈魂搬進 LLM agent

我覺得這篇最值得看的地方,不是它說自己有 perception / reasoning / planning / action 四個模組——現在很多 paper 都會這樣切。真正有意思的是,它不是把這四塊當流程圖畫漂亮而已,而是把 POMDP / rollout planning 那種「先預測後果,再選比較好的動作」的味道,硬塞回 LLM agent 裡。

它的大致流程是:

  • Perception:根據 logs 與 alerts 推估目前 recovery state
  • Reasoning:結合內建 security knowledge,推測攻擊 tactics 與後續可能觀察
  • Planning:針對多個候選 response action 做 rollout,模擬後續 recovery trajectory
  • Action:輸出具體回應動作

換句話說,它不是單純問模型「下一步該做什麼」,而是先讓模型提出多個候選動作,再把這些動作往後推演,挑比較可能把系統帶往 recovered state 的那條路。

這種設計的價值在於:它把 LLM 從「回答器」往「狀態驅動的規劃器」推了一步。

它怎麼定義 incident response 的內在狀態?

論文把 response planning 建成一個部分可觀測的 Markov decision process(POMDP)。這點很重要,因為在真實 incident 裡你永遠看不到完整真相:你只能從 alert、log、掃描結果、工具回傳慢慢拼湊。

作者用 recovery state 去表示目前事件處在什麼恢復階段,像是:

  • 有沒有完成 containment
  • 有沒有掌握攻擊面與影響範圍
  • 有沒有保留證據
  • 有沒有完成 eradication
  • 有沒有完成 hardening
  • 有沒有回到 recovered

這種抽象其實蠻聰明。它不是硬把所有系統細節都建模,而是把 IR workflow 最核心的進度與目標壓成一個可推理的 state。因此 agent 不用真的成為完整數位分身,但至少不會每一步都像在失憶。

這篇真正想壓的兩個老毛病:hallucination 與 context loss

作者說得很直接:目前很多 LLM-based IR 方法的問題,不是完全不會做,而是會在兩個地方摔倒。

  • Hallucination:給出看似合理、其實不合適的 response action
  • Context loss:流程一拉長,就忘了前面已經做過什麼、目前事件假設是什麼

而他們的解法也很務實:

  • rollout planning 去篩掉那些看起來會說、但模擬下去不太對勁的動作
  • in-context adaptation 在觀察到實際結果與預測不符時,修正 tactics conjecture 與後續計畫

這裡我最喜歡的一點是,它承認一件常被 agent demo 忽略的事:好的 response planning 不是一開始就算對全部,而是中途發現自己想錯時,能不能及時重規劃。

offline fine-tuning + online planning,這個組合比單純 prompt engineering 更像真的系統

論文把方法拆成兩階段:

  1. Offline fine-tuning:用 incident logs、對應 response plan 與 reasoning trace 去微調模型
  2. Online planning:實際 incident 來時,再基於目前觀察產生候選行動、做 rollout、選下一步

這個架構的好處是,它沒有把所有東西都壓在單次 prompt 上。很多 prompt-heavy agent 其實有一個根本弱點:你是希望模型在當下憑語言能力臨場硬撐整條流程。 但這篇做法比較像先把 IR workflow 的內在偏好學進去,再讓線上階段去處理當前 incident 的不確定性。

對 production-minded 的人來說,這種設計比較像真的 engineering:基底能力靠訓練,當前決策靠規劃,偏差修正靠回饋。

結果怎麼看?

論文的 headline result 很簡單:他們的 14B agent 在四組 incident datasets 上,平均 recovery time 比幾個 frontier model 更短,最多快到 23%

拿來比較的對象包括:

  • OpenAI O3
  • Gemini 2.5 Pro
  • DeepSeek-R1
  • 以及同尺寸的輕量化 baseline

作者的解讀是:前沿模型不是沒有知識,而是沒有被 task-specific 地綁進 incident response planning 這件事。 所以它們也許知道很多 security 概念,卻不一定能穩定地形成一條有效 recovery sequence。

這點我基本同意。因為在 IR 場景裡,真正難的常常不是「你知不知道某個 technique」,而是你能不能按對順序做對事情,並且在新 evidence 進來時不把整條策略弄亂。

ablation 比 headline 數字更值得看

論文還做了 ablation,把幾個關鍵部件抽掉來看影響:

  • 拿掉 fine-tuning
  • 拿掉 planning
  • 拿掉 context adaptation

結果很直觀:fine-tuning 與 planning 的影響最大,context adaptation 也有幫助,但沒有前兩者那麼關鍵。作者認為這是因為測試資料大多還是短流程,平均只有大約五步 action 左右,所以長上下文漂移還沒被完全放大。

這個結果我反而覺得很誠實。因為它說明一件事:目前這篇 paper 真正做出來的主體,不是什麼神奇的自我修正人格,而是「把 task-specific fine-tuning 加上 lookahead planning」這個組合。 context adaptation 比較像是往更長流程的一個方向,而不是今天最主要的 performance 來源。

這篇最有價值的,不是更強模型,而是更像 IR workflow 的 agent 結構

如果只看 benchmark headline,很容易把這篇誤讀成又一篇「我們的 agent 比某某 frontier model 快幾%」的 paper。但我覺得它更有價值的地方其實是這個:

它把 incident response agent 從「會講 response 建議」往「會維護 incident state、做 lookahead、在預測失準時重規劃」推近了一步。

這個差別很重要,因為很多 security agent demo 最大的問題,就是把規劃包裝成敘事。模型看起來很像在推理,實際上只是把 alert 重述成比較長的段落。但這篇至少有在努力把 planning 做成顯式流程,而不是純靠話術撐住。

但這篇也很清楚暴露了 agentic IR 的現實瓶頸

論文最後也很老實地承認,現在最大限制其實不是模型會不會講,而是算得太慢

他們的 Monte Carlo tree search / rollout 規劃成本大致跟 O(MN) 成長,而且整套系統跑在單張 A100 上,平均處理一個 incident 要 20 分鐘才生出五步 response plan

這件事非常關鍵,因為它直接提醒大家:把規劃做得比較像真的 incident response,通常就代表成本、延遲、工程複雜度會一起上來。 你不能一邊要求 agent 不要亂講、要能看狀態、要會回頭修正,又假設它能像聊天機器人一樣秒回。

所以如果把這篇放回 production 現實裡,我會說它比較像是在證明一條方向:真正可用的 autonomous IR agent,多半不是更大的聊天模型,而是更強的 state tracking + planning + replanning 結構。

放回最近 sectools.tw 主線裡,它補的是哪一塊?

如果把最近這串文章串起來看,這篇的位置其實很漂亮:

  • SIR-Bench 在問:你怎麼知道 agent 不是只會背 alert?
  • Multi-Agent Incident Response 在問:不同 agent / 角色如何協作?
  • 這篇 在問:就算只有一個 agent,它要怎麼把整條 IR workflow 接起來,而且不要中途亂掉?

也就是說,這篇補的是 single-agent response planning architecture 這一塊。它不是在講 collaboration,而是在講:一個 agent 自己要怎麼維持策略連續性。

我的看法

我自己覺得這篇比表面上看起來更值得注意,因為它沒有把重點放在 flashy demo,而是直接去碰 autonomous IR 最麻煩的骨頭:長流程規劃。

它真正提出的關鍵觀察大概是這句:

incident response agent 真正難的不是懂多少 security 知識,而是能不能把「目前恢復到哪裡、下一步做什麼、做完後應該看到什麼」這三件事穩定接起來。

這也解釋了為什麼這篇會把 RL 的 planning 靈魂拉回來。因為一個只靠 prompt 的 agent,也許很會說;但真正像 production 的 agent,需要的不只是會說,而是會沿著 state 前進、在偏差出現時收斂回來。

如果要我用一句話總結這篇 paper,我會這樣講:

這篇真正往前推的,不是讓 LLM 更像 analyst,而是讓 IR agent 終於比較像一個會持續重規劃的控制系統。

而在 autonomous incident response 這條路上,這可能比再多幾句漂亮解釋更重要。

You may also like