AutoBnB-RAG 論文閱讀分析：把 RAG 放進多代理人 Incident Response 團隊後，勝率真的會上升嗎？

2026 年 4 月 8 日

論文基本資訊

論文標題：AutoBnB-RAG: Enhancing Multi-Agent Incident Response with Retrieval-Augmented Generation
作者：Zefang Liu、Arman Anwar
年份：2025
來源：arXiv:2508.13118v1
論文連結：https://arxiv.org/abs/2508.13118
主題：Incident Response、Multi-Agent、RAG、Backdoors & Breaches、SOC、LLM Simulation

如果最近幾篇 sectools.tw 的主線，一路在追 CTI benchmark、SOC 協作、agentic investigation、規則生成，那這篇 AutoBnB-RAG 很適合接著讀，因為它把問題往 incident response 的團隊決策層再推一步：如果我們不是只評估單一模型答題，而是讓多個 LLM agent 模擬一支 IR 團隊，再補上 RAG 外部知識，整個團隊在事件處置上會不會真的更像樣？

這篇論文的重點不是再做一個通用 chatbot，也不是單純證明 RAG 可以加分，而是把 RAG 放進一個 multi-agent incident response simulation 裡，並用 Backdoors & Breaches（B&B） 這種本來就貼近實戰 tabletop exercise 的環境，來測試不同團隊組織、不同檢索來源、不同推理風格下的表現差異。

這篇論文想解決什麼？

作者點出的問題很直接：現代 IR 不是單人問答，而是多人協作、資訊不完整、時間壓力高、外部知識需求強的決策過程。即使 LLM 在對話和推理上很強，只靠參數記憶仍然容易遇到三個限制：

缺最新或情境化知識：碰到新事件、特定技術、特定攻擊鏈，模型未必記得夠準。
多代理人協作容易飄：agent 之間雖然會討論，但沒有外部 grounding 時，推理可能只是互相強化錯誤。
現有模擬多半只看 dialogue，不夠像真實 IR：真實 IR 團隊卡住時會查文件、翻知識庫、看案例，不會只靠腦內推理。

因此，作者的核心問題是：

如果把 retrieval-augmented generation（RAG）嵌進多代理人 incident response 模擬流程裡，能不能讓團隊在處置決策上更穩、更準、更接近現場？

研究場景：為什麼用 Backdoors & Breaches？

這篇論文沿用先前 AutoBnB 的設定，把 Black Hills Information Security 的 Backdoors & Breaches 桌上推演遊戲轉成可重複實驗的 multi-agent 環境。

B&B 的核心玩法很適合做 IR 模擬，因為它不是單純問答，而是要求防守方在有限回合內，逐步揭露完整攻擊鏈。作者把隱藏事件拆成四個階段：

Initial Compromise
Pivot and Escalate
C2 and Exfiltration
Persistence

每回合，防守隊伍要從程序卡（procedure cards）中選一張來調查，然後根據擲骰結果判定是否成功揭露對應攻擊卡。整體規則可以濃縮成：

選 procedure → 擲 20 面骰 → 若 procedure 相關且點數達標 → 揭露攻擊階段
10 回合內找出 4 張隱藏 attack cards 即獲勝

這個設計很有價值，因為它把 incident response 裡常見的三件事都保留下來了：

資訊不完整
調查資源有限
每一步 procedure selection 都會影響後面能不能拼出完整 attack path

AutoBnB-RAG 的整體架構在做什麼？

這篇論文的框架可以簡化成下面這條線：

隱藏攻擊情境（4 階段 attack cards）
  ↓
5 個 defender agents + 1 個 incident captain 協作討論
  ↓
選 procedure card 並執行一次調查
  ↓
若失敗或資訊不足，incident captain 觸發 retrieval
  ↓
retrieval agent 從外部知識庫取回資訊
  ↓
團隊吸收外部證據後再討論下一步
  ↓
在 10 回合內重建攻擊鏈並判定勝敗

這裡最重要的不是「加了一個 RAG 模組」而已，而是作者把 RAG 放在失敗後的補知識回圈。也就是說，當團隊內部推理不夠、procedure 沒打中、或局勢仍不清楚時，incident captain 才發出檢索查詢，把外部資料拉進來做下一輪決策。

這其實相當貼近現場：IR team 很少是每一步都盲目查資料，而是在卡住、懷疑、缺脈絡時才會查文檔、翻案例、找 threat intel。

Team Structure：這篇論文不只比模型，還比團隊組織

AutoBnB-RAG 的一個亮點，是作者不是只測單一 agent 配置，而是比較 8 種 team structures。原始 AutoBnB 有 6 種，這篇再加上 2 種 argumentative 結構。

作者考慮的兩個主要軸向是：

Leadership 結構：centralized、decentralized、hierarchical
Expertise 結構：homogeneous（全員 generalist）、heterogeneous（有不同領域專長）

另外新加入的兩種是：

homogeneous argumentative
heterogeneous argumentative

這兩種 argumentative team 的概念很值得注意：作者有意讓 agent 扮演比較批判、會挑戰提案、會提出替代推理的角色，藉此減少 groupthink。

換句話說，這篇論文不只是問「RAG 有沒有用」，還在問：

IR 團隊要不要有 leader？
專長分工有沒有價值？
故意放入辯證／挑戰型角色，會不會讓決策更穩？

RAG 怎麼加進去？兩種檢索知識源的設計

AutoBnB-RAG 設計了兩種 retrieval setting：

RAG-Wiki：來自技術文件與知識頁面
RAG-News：來自敘事式 incident reports

1. RAG-Wiki：技術文件型知識

作者為 RAG-Wiki 收集了 125 個 cybersecurity webpages，來源包括：

Wikipedia
Microsoft Learn
MITRE ATT&CK
OWASP
資安部落格與技術文章

涵蓋主題包含：

access token manipulation
ARP spoofing
DLL injection
phishing
insider threats
malware injection
SIEM analysis、deception technology、endpoint detection 等防禦程序

這類資料的特性是技術性高、事實密度高、偏 reference-style。

2. RAG-News：敘事式事件案例

另一個設定更有意思：作者人工 prompt 生成了 100 篇 synthetic news-style incident reports，模擬真實世界多階段攻擊與調查過程。

這些故事不是隨便寫，而是刻意映射 B&B card logic，讓案例中的：

initial compromise
privilege escalation
persistence
data exfiltration

都能對應回事件推演流程。

RAG-News 的意義在於：它提供的不是純 technical definition，而是事件脈絡、因果線索、推理節奏。對 incident response 來說，這種 narrative context 有時比冷冰冰的技術詞條更容易幫助團隊拼出攻擊鏈。

實驗設定：模型、檢索與切塊方式

在實驗上，作者使用：

AutoGen 作為 multi-agent orchestration framework
GPT-4o 作為 base model
temperature = 0.7
每個隊伍 5 個 defenders
每種 team structure 進行 30 次獨立 simulation runs

RAG 的預設檢索配置則是：

每次 retrieval 取 top-3 文件
文件切成 5,000 字元 chunks
500 字元 overlap
向量資料庫使用 Chroma

這套設計很務實，因為它不是追求複雜 retrieval stack，而是維持一個足夠清楚、可重複比較的實驗框架。

主結果：RAG 幾乎全面提升 IR 團隊勝率

論文最重要的結果，在 Table III。作者比較 base（無 retrieval）、RAG-Wiki 與 RAG-News 三種條件下，不同 team structures 的 win rate。

整體結論非常明確：retrieval augmentation 幾乎在所有團隊配置下都帶來提升。

文中點出的幾個代表性結果包括：

Homogeneous centralized：從 20.0% 提升到 50.0%（RAG-Wiki） 與 60.0%（RAG-News）
Heterogeneous centralized：在 RAG-News 下提升到 63.3%
Heterogeneous hierarchical：表現最佳，RAG-News 下達到 70.0%，base 僅 30.0%
Heterogeneous argumentative：從 30.0% 提升到 46.7%（RAG-Wiki） 與 53.3%（RAG-News）

這些結果至少說明了三件事：

外部知識補強真的有用：agent 團隊不是只靠內部對話就夠。
團隊結構會影響收益：有 leader、有分工、有經驗層級的隊伍，在 RAG 加持下通常更容易把外部資訊轉成行動。
敘事式 retrieval 常常比純技術文件更有效：RAG-News 多數情況略勝 RAG-Wiki。

為什麼 RAG-News 常比 RAG-Wiki 強？

這是這篇論文我覺得最有意思的觀察之一。直覺上，你可能會以為技術文件比較精準，應該更適合 incident response；但結果顯示，narrative-style incident stories 常常帶來更高的勝率。

這背後可能有很合理的解釋：

IR 本質上是在重建事件序列，而不是只查單點知識。
敘事型文本更容易提供階段關聯、因果脈絡、程序節奏。
多 agent 討論時，故事型材料更容易被轉成共享 situational awareness。

也就是說，對 incident response 這種任務而言，好的 external context 不只是 facts，更是可供推理的情境腳手架。

Ablation：檢索數量與 chunk size 的影響

作者另外做了兩組 ablation。

1. Top-k retrieval 數量

他們在 homogeneous centralized team 下調整每次查回來的文件數量，結果顯示在不同 top-k 設定下，表現相對穩定，沒有因為多拿幾篇就明顯崩掉。

這表示 AutoBnB-RAG 對 retrieval depth 不算太脆弱。少量高相關文件通常就足夠支撐決策；更多文件雖然可能補更多資訊，但也會增加 noise 風險。

2. Chunk size

作者比較了 1,000 字元 和 5,000 字元 的 chunk 設定。結果顯示，較大的 chunk 通常有更好或至少相當的表現，尤其在 RAG-Wiki 上更明顯。

這個結果也很合理：對技術文件來說，如果 chunk 太小，會把原本相互依賴的上下文切碎；保留較長片段，agent 比較容易在一次檢索中拿到完整語義。

Real-World Simulation：不只玩遊戲，也拿真實事件來測

為了證明框架不只適用在 synthetic card game，作者還做了 3 個真實世界事件模擬，來源是 2025 年 6 月公開 breach reports。

論文描述的做法是：

把真實 incident 映射回 B&B card structure
使用 news corpus 做 retrieval support
以 1,000 字元 chunk + overlap 保留案例脈絡
每輪取 top-3 passages 作為外部支援

其中一個具體例子是 The North Face credential stuffing incident。這一段的價值不在於它把真實事件「完全重演」，而是證明這個框架確實可以把公開事件敘述映射成結構化 IR 推演任務，讓 multi-agent + RAG 不只是玩具題，而是有機會接近 case-based response training。

這篇論文真正的貢獻在哪裡？

如果把全文濃縮，AutoBnB-RAG 的主要貢獻有四個：

把 RAG 正式嵌進 multi-agent incident response simulation，而不是只在單 agent QA 上加檢索。
比較 8 種 team structures，讓研究不只停留在模型層，而進到組織與協作層。
同時比較兩種知識源型態：技術文件 vs. 敘事式 incident stories。
把真實 breach reports 拉進模擬，證明框架不只適用於純 synthetic 任務。

這些貢獻合起來的意義是：它開始把「AI for SOC / IR」從單點能力展示，推向團隊決策與訓練環境設計。

重點整理

這篇 paper 研究的是 multi-agent incident response，不是單一模型問答。
它建立在 Backdoors & Breaches 桌上推演遊戲上，模擬 10 回合內重建攻擊鏈的過程。
核心改進是把 RAG 放到失敗後的補知識流程，讓 incident captain 可觸發 retrieval。
作者設計了兩種知識源：RAG-Wiki（技術文件）與 RAG-News（敘事式案例）。
共比較 8 種 team structures，包含 centralized、hierarchical、heterogeneous 與 argumentative configurations。
結果顯示 retrieval 幾乎全面提升勝率，其中 heterogeneous hierarchical + RAG-News 最好，可到 70%。
敘事型 incident stories 在很多情況下比純技術文件更有幫助，代表 IR 需要的不只是 facts，也需要事件脈絡。

Takeaway

AutoBnB-RAG 最值得記住的地方，不是單純證明「RAG 可以幫 LLM 加分」，而是更具體地證明：

在 incident response 這種高度協作、強調事件脈絡與多步驟推理的場景裡，外部知識檢索如果被正確嵌進團隊決策流程，能明顯提升 LLM agent 團隊的判斷品質與成功率。

對今天想做 SOC Copilot、IR simulation、AI tabletop exercise 或 case-based cyber training 的人來說，這篇論文的重要性很高。它提醒我們：未來有價值的不是會講話的單一 agent，而是能在正確時機檢索、共享脈絡、分工辯證、共同收斂的 AI 團隊。

Disclosure：本文由 AI 協助整理與撰寫，內容依據原始論文、公開資訊與可驗證來源彙整；作者已盡力忠實呈現論文重點，但仍建議讀者搭配原文交叉閱讀。

AutoBnB-RAG 論文閱讀分析：把 RAG 放進多代理人 Incident Response 團隊後，勝率真的會上升嗎？

論文基本資訊

這篇論文想解決什麼？

研究場景：為什麼用 Backdoors & Breaches？

AutoBnB-RAG 的整體架構在做什麼？

Team Structure：這篇論文不只比模型，還比團隊組織

RAG 怎麼加進去？兩種檢索知識源的設計

1. RAG-Wiki：技術文件型知識

2. RAG-News：敘事式事件案例

實驗設定：模型、檢索與切塊方式

主結果：RAG 幾乎全面提升 IR 團隊勝率

為什麼 RAG-News 常比 RAG-Wiki 強？

Ablation：檢索數量與 chunk size 的影響

1. Top-k retrieval 數量

2. Chunk size

Real-World Simulation：不只玩遊戲，也拿真實事件來測

這篇論文真正的貢獻在哪裡？

重點整理

Takeaway

發佈留言取消回覆

You may also like

近期文章

廣告

文章分類

近期留言

論文基本資訊

這篇論文想解決什麼？

研究場景：為什麼用 Backdoors & Breaches？

AutoBnB-RAG 的整體架構在做什麼？

Team Structure：這篇論文不只比模型，還比團隊組織

RAG 怎麼加進去？兩種檢索知識源的設計

1. RAG-Wiki：技術文件型知識

2. RAG-News：敘事式事件案例

實驗設定：模型、檢索與切塊方式

主結果：RAG 幾乎全面提升 IR 團隊勝率

為什麼 RAG-News 常比 RAG-Wiki 強？

Ablation：檢索數量與 chunk size 的影響

1. Top-k retrieval 數量

2. Chunk size

Real-World Simulation：不只玩遊戲，也拿真實事件來測

這篇論文真正的貢獻在哪裡？

重點整理

Takeaway

發佈留言 取消回覆

You may also like

論文閱讀分析：用大型語言模型與威脅情資推進自動化事件回應

論文閱讀分析：大型語言模型其實不可靠於 Cyber Threat Intelligence

近期文章

廣告

文章分類

近期留言

發佈留言取消回覆