論文閱讀分析:大型語言模型能成為 Autonomous Cyber Defender 嗎?
論文基本資訊
- 論文標題:Large Language Models are Autonomous Cyber Defenders
- 作者:Sebastián R. Castro、Roberto Campbell、Nancy Lau、Octavio Villalobos、Jiaqi Duan、Alvaro A. Cardenas
- 年份:2025
- 來源:arXiv:2505.04843v2 / IEEE CAI 2025 Adaptive CyberDefense Workshop
- 論文連結:https://arxiv.org/abs/2505.04843
- 主題:Autonomous Cyber Defense、Incident Response、LLM Agent、CybORG、CAGE 4、Multi-Agent Defense、RL
這篇論文很值得接在最近這條 agentic security / incident response 主線後面看,因為它問的不是「LLM 懂不懂資安知識」,而是更實際也更殘酷的一題:如果真的把 LLM 丟進多代理、自動化、對抗式的防守環境,它能不能像藍隊一樣做事?
作者選的測試場景不是靜態 QA,也不是單輪規則生成,而是 CybORG 的 CAGE 4——一個本來偏向強化學習(RL)社群使用的多代理 autonomous cyber defense 模擬環境。這代表論文不是在測「模型能不能回答事件回應題目」,而是在測 模型能不能在有限觀測、跨網段協作、又有攻防成本與可用性約束的情況下,連續做 500 步的防守決策。
如果一句話講這篇論文的核心貢獻,那就是:作者首次把 LLM agent 真正接進 CAGE 4 多代理防守環境,並直接拿它和 RL defender 比較,觀察它在 incident response 場景裡到底是比較像能工作的防守者,還是比較像會講道理但容易誤判的顧問。
這篇論文想解決什麼問題?
過去 autonomous cyber defense(ACD)研究,大多建立在 RL 上。這條路有幾個很明顯的優勢:一旦環境和 reward 設計完成,RL agent 可以在固定任務裡學出很強的策略,推論速度也快。但它也有三個老問題:
- 可解釋性差:你知道它分數高,卻不一定知道它為什麼這樣做。
- 可遷移性差:換對手、換網路、換規則後,原本學到的 policy 未必還有效。
- 訓練成本高:要先打造 gym、模擬環境、reward 設計與大量訓練,才能產生可用 policy。
LLM 則看起來剛好補這三點:它天然擅長語言推理、能輸出理由、而且預訓練過程中看過大量跨場景文字知識。於是作者要回答的其實是四個連在一起的問題:
- LLM 能不能不用額外訓練,就直接成為 autonomous cyber defender?
- 在多代理 incident response 環境裡,LLM agent 能不能和其他 defender 協作?
- LLM 跟 RL defender 比,哪一邊在實際防守 reward 上比較強?
- 即使分數不如 RL,LLM 是否仍展現出對安全團隊有價值的 reasoning 模式?
論文的方法:不是再造一個新模型,而是把 LLM 接上 CAGE 4
這篇論文的聰明之處,是它沒有去訓練一個全新的 security foundation model,而是做了三件更有工程價值的事:
- 做出一個可把 LLM 接進 CybORG / CAGE 4 的 adapter framework
- 把原本偏 RL 向量觀測格式,轉成 自然語言 observation
- 為多個 defender agent 設計一個 8-bit communication protocol
也就是說,作者不是只問「LLM 會不會答」,而是問「要讓 LLM 真正在 multi-agent cyber defense gym 裡工作,需要補哪些橋接層」。這比單純 benchmark 更接近真實系統設計。
環境:CybORG CAGE 4 到底在模擬什麼?
CAGE 4 是一個多代理藍隊防守場景。網路被切成多個 zone,不同 blue agent 只看得到自己負責的子網。紅隊會做 discover、exploit、privilege escalation、impact 等動作;綠隊則代表正常使用者,需要維持服務可用性。
這個設定很重要,因為它把防守問題從「看到完整全域地圖後做最佳決策」變成更像真實 SOC / IR 的情境:
- 觀測不完整:每個 defender 只看到局部資訊
- 必須協作:需要靠 communication vector 知道其他區域出事沒
- 不能只顧攔截:某些防守動作會影響 service availability
- 要連續決策:不是單題回答,而是每一步都要選 action
換句話說,這篇論文測的是 operational defense behavior,不是 paper benchmark 式的知識題。
作者怎麼把 RL 觀測轉成 LLM 可用資訊?
LLM 不能直接吃 CAGE 4 那種高維度 observation vector,所以作者建立了一個 observation formatter,把每一步看到的資訊整理成自然語言欄位,包括:
- Agent 名稱
- 目前 mission phase
- 上一個 action 與執行狀態
- 其他 defender 廣播的 communication vectors
- 本地偵測到的 suspicious activity
模型回覆則被限制成簡單 JSON,例如輸出一個 action 加上一句 reason。這樣做有兩個效果:
- 便於 parser 把文字回覆重新映射回遊戲 action
- 保留 reasoning 痕跡,能分析模型為什麼做這個決策
這裡其實已經透露一個重要訊號:如果你想把 LLM 放進安全自動化系統,真正的工程難點往往不是模型本身,而是 observation / action interface 設計。
這篇論文最有意思的地方:防守代理之間的 8-bit 通訊協定
CAGE 4 本身允許 defender agent 每一步廣播一個 1-byte communication vector,但不規定格式。作者就利用這點,自己定義了一套 8-bit protocol:
- Bits 0–4:指出惡意活動疑似來自哪個 defender 的網段
- Bits 5–6:本區域 compromise level(無、掃描/遠端利用、user-level、admin-level)
- Bit 7:這個 agent 目前是不是 busy
這看似小技巧,其實是整篇論文很關鍵的貢獻。因為多代理 incident response 的核心問題之一,就是 你不能指望每個 agent 都看到全貌,但又不能讓它們毫無協作。作者沒有做複雜 message passing,而是用超低帶寬、可解釋的狀態摘要,讓不同 agent 共享最低限度但足夠有用的安全態勢。
這對真實世界也有啟發:agentic SOC 未必需要大而全的 shared memory,很多時候一個簡潔、語義清楚、成本低的 coordination layer 就能大幅改變系統行為。
Prompt 設計:刻意不告訴模型「你在玩一個有 reward 的遊戲」
作者在 prompting 上的選擇很有意思。他們不是把 CAGE 4 描述成一個要最大化 reward 的模擬器,而是把模型設成「正在防守企業網路的資安專家」。
這樣做的理由很清楚:作者不是要測一個為 benchmark 最佳化的答題器,而是想看 LLM 是否能以接近真實防守者的語境做決策。因此 prompt 內容包含:
- 角色設定:你是 defending an enterprise network 的 cyber security expert
- 可選 actions 定義
- 輸出格式規則
- few-shot examples
- communication vector 與 observation structure 的說明
作者還比較了 instruction only、few-shot、role prompting 三種版本,結果是 role + few-shot 的平均 reward 最好。這點不算意外,但它再次證明:在 cyber defense 這種高約束任務裡,prompt 不只是文字包裝,而是 policy induction 的一部分。
評估設計:不只拿 LLM 跟 LLM 比,而是直接對 RL baseline
論文用四種藍隊組合做比較:
- No blue agents:全都睡覺,當作下限 baseline
- All blue agents as LLM
- All blue agents as RL
- 1 LLM + 4 RL:混合團隊
紅隊方面則用了多種不同策略,包括 aggressive、stealthy、impact、degrade-service 等變體。這樣的設計很合理,因為如果只用單一 attacker,就很難看出 defender 是真的有泛化能力,還是只是剛好碰對題目。
作者測了 OpenAI 的 GPT-4o-mini、o1-mini、o3-mini,以及 DeepSeek-V3,重點關注兩件事:
- Reward / penalty 表現
- 執行時間與推論成本
結果一:LLM 能守,但 RL 目前還是更強
如果只看 reward,結論很直接:ALL RL defender team 明顯優於 ALL LLM defender team。論文給出的平均 reward 顯示,RL 約為 -493,LLM 約為 -2547.2,差距相當明顯。
這意味著什麼?意味著在這種高約束、多步驟、需要持續動作選擇的防守環境裡,LLM 還不能直接取代一個為該環境專門訓練過的 RL defender。如果你要的是 benchmark 上的防守分數、穩定性、速度,那 RL 仍然是比較成熟的路線。
但論文也不是在說 LLM 完全沒用。相反地,它證明了一件更微妙的事:LLM 雖然不是目前最強 defender,但它已經不只是「會講安全建議的聊天模型」,而是能在多代理防守環境裡產生有安全邏輯的連續決策。
結果二:LLM 最大問題不是懂不懂,而是慢,而且容易誤讀情境
除了 reward 輸給 RL,另一個非常實際的問題是 速度。作者量到:
- 全部藍隊都用 RL 時,平均實驗長度約 45.2 秒
- 全部藍隊都用 GPT-4o-mini 時,平均約 4704.6 秒
也就是說,在不計 RL 訓練時間的前提下,RL 的線上 action selection 約快 104 倍。這是一個很殘酷但很現實的結果:就算 LLM reasoning 看起來更像人,如果它每一步都要花大量推論延遲,拿去做 real-time automated response 會非常痛苦。
另一個問題則是 hallucination / misinterpretation。作者觀察到 LLM 會:
- 誤讀 communication vector
- 搞錯是哪個 agent 發出的風險訊號
- 改變 action 定義
- 對 action 效果做錯誤假設
這代表在 multi-agent defense 裡,LLM 的最大風險未必是完全胡說八道,而是 對半結構化環境訊號做出看似合理、其實偏掉的解讀。這種錯誤最危險,因為它有 reasoning 的外觀,卻不一定有 operational correctness。
結果三:LLM 的防守風格,跟 RL 很不一樣
論文一個很有趣的分析,是把 LLM 產生的 reason 做 embedding、PCA、K-means clustering,去看它在 500 步 episode 中形成哪些行為主題。
作者發現 LLM 的決策群集大致圍繞四類模式:
- 主動部署 decoy,提早誘捕或偵測紅隊活動
- 在收到其他 agent 風險通知後做 Analyse / Remove
- 當前一步驟失敗後,嘗試重新分析失敗原因
- 持續確認 decoy 是否正確部署、是否有提早暴露跡象
而 RL defender 的風格則更保守,偏向大量使用 Monitor、Sleep、Remove,盡量避免高干擾動作,只有在必要時才做 Restore 或 BlockTrafficZone。
換句話說:
- RL 比較像訓練有素、知道哪裡該忍的操作員
- LLM 比較像有主動意圖、會分析、會設陷阱、會解釋,但偶爾看錯儀表板的新進分析師
這個對比很有啟發。因為它說明了 LLM 目前可能比較適合的角色,不一定是 fully autonomous blocker,而可能是 能提出可解釋策略、協助做 deception / triage / investigation 的 reasoning layer。
這篇論文最值得記住的地方,不是「LLM 贏了」,而是「LLM 已經能像 defender 一樣思考」
如果你只看 leaderboard,這篇論文結論很簡單:LLM 還打不贏針對環境訓練好的 RL。 但如果你只看到這裡,就會錯過它真正重要的價值。
這篇論文真正證明的是:
- LLM 可以被接進 realistic multi-agent cyber defense 環境
- LLM 可以利用局部 observation 與低帶寬協作訊號做連續防守決策
- LLM 的 reason 雖然不總是正確,但已經表現出清楚的 defensive logic
- LLM 與 RL 的差異,不只是分數高低,而是 決策風格與可解釋性結構 的差異
這很重要,因為未來真正可落地的 agentic SOC / autonomous IR,未必是「全部都改用 LLM」,也未必是「全部繼續用 RL」。更可能的方向是:
- RL 負責高頻、低延遲、環境內最佳化的 action policy
- LLM 負責跨步驟解釋、策略重規劃、異常情境推理、跨 agent 協調摘要
這篇論文其實已經暗示了這條混合式路線。
這篇論文的限制
作者自己也很誠實,指出幾個限制:
- 環境對 RL 比較友善:CAGE 4 本來就是為 RL 設計的,不是為 LLM 原生設計
- reward 不等於真正安全性:某些 attacker 即使已拿高權限,reward 也未必充分反映風險
- prompt 還可優化:如果更直接教模型 action decision rules,分數可能更高
- 推論成本與延遲很高:這是最明顯的部署阻力
我自己會再補一點:這篇論文用的是比較薄的 per-step context,尚未真正進入 長時序記憶、跨 episode learning、工具回饋校正、或 planner-executor 分工。所以它其實比較像是在證明「LLM 作為 defender 的最低可行性」,而不是最終形態。
對實務的啟發
對藍隊、SOC、SOAR 或 agentic security 系統設計來說,這篇論文的實務價值很高,因為它給了幾個很清楚的方向:
- 別把 LLM 當成直接取代 RL 的東西:至少現在還不是。
- 先把 observation / action / coordination interface 設計好:這比盲目換模型重要。
- 用 LLM 補 reasoning,不一定要讓它獨自做所有 action。
- 多代理安全系統要有低成本、可驗證的通訊協定:這篇的 8-bit vector 就是很好的工程示範。
- 評估 agent 時不能只看能不能答題,要看它能不能持續做對事。
總結
Large Language Models are Autonomous Cyber Defenders 不是一篇在宣告「LLM 已經全面超越 RL」的論文;剛好相反,它的價值在於非常誠實地把 LLM 放進真正困難的 autonomous defense 場景,然後告訴你:它已經開始像 defender 一樣思考,但距離成為穩定、快速、可靠的自動防守主力,還有一段不短的工程路要走。
對 sectools.tw 這條持續追的 CTI / AI / SOC 論文線來說,這篇很關鍵,因為它剛好卡在兩個世界中間:
- 一邊是 benchmark、CTI、RAG、rule generation 這些「模型懂不懂資安」的研究
- 另一邊是 真的把模型放進 incident response loop 的研究
而這篇論文真正讓人記住的一句話應該是:會解釋,不等於會防守;但如果一個模型已經能在多代理防守環境裡持續做出有安全邏輯的決策,那它離真正可用的 autonomous cyber defender,確實比很多人想像得更近。
