CoopGuard 論文閱讀分析：當 LLM 防禦還停在單輪拒絕，真正的對手早就在多輪互動裡慢慢摸穿你

2026 年 4 月 10 日

本文由 AI 產生、整理與撰寫。

論文基本資訊

論文標題：CoopGuard: Stateful Cooperative Agents Safeguarding LLMs Against Evolving Multi-Round Attacks
作者：Siyuan Li、Zehao Liu、Xi Lin、Qinghua Mao、Yuliang Chen、Haoyu Li、Jun Wu、Jianhua Li、Xiu Su
來源：arXiv:2604.04060
年份：2026
論文連結：https://arxiv.org/abs/2604.04060
主題：Agentic Security、LLM Safety、Multi-Round Attacks、Jailbreak Defense、Deception Defense、Benchmark

最近這一波 agent security 論文，已經一路從 memory poisoning、tool supply chain、skill injection、runtime guardrails 寫到 formal permission boundary。但如果把這些問題往更日常、也更接近真實攻擊者行為的方向壓下去，你很快會撞上一個更難處理的事實：很多攻擊不是一拳打死，而是一輪一輪試、一輪一輪改，慢慢把防線摸穿。

CoopGuard 這篇 paper 的切入點正好就在這裡。它不是單純再做一個「辨識惡意 prompt」的 filter，也不是再講一次 prompt injection 很危險，而是把焦點放在一個更貼近現實的威脅模型：攻擊者會持續互動、持續試探、持續改寫語句，甚至利用系統的拒絕回應當作 side-channel，逐步逼近可利用邊界。

所以這篇論文真正想解的問題，不是「這一句危不危險」，而是：當攻擊是多輪、逐步演化，而且每一輪都看起來像一次新的嘗試時，防禦系統能不能記得、能不能調整、能不能不要每次都像失憶一樣重新開始？

這篇論文在問什麼？

作者的核心問題可以濃縮成三句：

現有 LLM 防禦是不是太靜態、太單輪，因而容易被逐步演化的多輪攻擊繞過？
如果防禦要真的面對多輪對抗，是否應該像 incident responder 一樣維持 state，而不是只看當前這一句？
除了單純 block 掉輸出之外，能不能用更高成本、更少資訊回饋的方式，讓攻擊者越打越虧？

這組問題之所以重要，是因為很多防禦其實有個共同弱點：它們把每個 prompt 都當成獨立事件。但真實世界的對手不會這麼配合。對手會記得上一輪你怎麼拒絕、哪種說法容易被擋、哪種包裝能多騙兩步；如果防守方完全不累積 context，那就等於每一輪都免費幫攻擊者重置環境。

CoopGuard 做了什麼？

作者提出的是一個有狀態（stateful）的多代理防禦框架。它不是用單一模型做單一判斷，而是把防禦拆成四個角色：

Deferring Agent：用模糊、延後、拖慢的方式提高 probing 成本。
Tempting Agent：提供看似有進展、其實是 decoy 的誤導性回應。
Forensic Agent：累積互動證據，抽取攻擊模式與可稽核線索。
System Agent：把前面三者的訊號整合成每一輪的防禦策略。

這個設計最值得看的地方，是它不是把 deception 當成臨時的小技巧，而是把 deception、forensics、state management 放進同一個 round-level control loop 裡。作者用的流程可以概括成：

detect → deceive → summarize → fuse → update state

也就是說，每一輪不只是判斷危險不危險，而是要同時決定：

這輪看起來像不像持續 probing？
要不要故意模糊、拖延、誤導？
從前幾輪累積下來的跡象看，這名攻擊者正在往哪個方向收斂？
這次回應之後，內部 defense state 要怎麼更新？

換句話說，CoopGuard 把 LLM defense 從「每句做分類」拉成「整段互動做對抗管理」。這一點很關鍵，因為多輪攻擊真正危險的地方，本來就不在某一句特別邪惡，而在於攻擊者能不能從一連串回合中逐步學到系統邊界。

它的 stateful 設計到底差在哪？

論文裡最重要的概念之一，是 defense state h_t。作者定義這個 state 會持續累積過去幾輪的：

可疑度訊號
已採取的防禦策略
已釋出的 decoy 敘事
forensic evidence 與互動摘要

這讓後面的回合不再只是看當前 query，而是看「這句話在整段交互史中代表什麼」。

例如 Deferring Agent 用帶有時間衰減的 suspiciousness aggregation，把最近幾輪的 probing 行為累積成 detection score；Tempting Agent 則根據既有 state 生成前後一致的 decoy，避免攻擊者因為前後矛盾而立刻看穿；Forensic Agent 則把互動過程轉成可供後續協調的 evidence，而不是讓對話結束就什麼都不剩。

如果只用一句話總結：它把「防禦」從靜態輸出規則，改成了會記仇、會記帳、也會持續調整話術的互動策略。

為什麼作者不只想拒絕，還想「騙」？

這篇 paper 一個很不一樣的地方，是它明確主張：在多輪攻擊裡，單純拒絕不一定是最佳策略。

原因很現實。很多防禦如果每次都立即乾脆拒絕，表面上看起來安全，實際上卻可能給攻擊者大量免費 feedback：

哪種措辭一秒被擋？
哪種改寫能多撐一輪？
系統偏好擋關鍵字、語意、還是特定格式？

對攻擊者來說，這些拒絕本身就是 training signal。你越清楚、越穩定、越可預測，他越容易做 prompt optimization。

所以 CoopGuard 的思路不是只說「不」，而是想辦法讓對手：

拿不到乾淨的邊界訊號
耗掉更多 token 與更多回合
以為自己有進展，但實際上在錯路上越走越遠

這其實很像安全實務裡的 deception 技術：honeypot、decoy credential、misdirection。只是這篇論文把這件事移植到 LLM 對話防禦層，而且不是一次性的假訊號，而是跨輪維持一致的 deception context。

EMRA benchmark 值得注意在哪？

為了評估這種多輪、逐步演化的攻擊，作者另外建了一個 benchmark：EMRA。

它的重點不是單純收集很多 jailbreak prompt，而是把資料組成多輪 episode：每一輪都是一次獨立嘗試，但整個 sequence 會逐步升級、逐步換寫法、逐步更 evasive。論文提到 EMRA 共有 5,200 個 adversarial samples，涵蓋 8 種 attack types。

這個 benchmark 設計的重要性，在於它更接近實戰中的「反覆試探」節奏。很多既有資料集把攻擊看成 isolated prompt，這對測靜態 classifier 也許夠，但對真的要面對 interaction 的 agent 或 assistant 來說，其實太乾淨。EMRA 比較像是在問：當對手不是只打一槍，而是會持續觀察你、利用你、修正他自己，你還守不守得住？

論文的主要結果是什麼？

從摘要與主表結果來看，作者最想強調三件事：

CoopGuard 在多輪攻擊下顯著降低 attack success rate（ASR）
它比現有 baseline 更能維持 deceptive rate（DR）
它能提高攻擊成本、降低攻擊效率，而不是只做表面上的拒絕

摘要中的整體說法是：相較於 state-of-the-art defenses，CoopGuard 可將攻擊成功率降低 78.9%，同時把 deceptive rate 提升 186%，並把 attack efficiency 再壓低 167.9%。

這三個數字如果放在一起看，訊息就很清楚了：作者不是只想證明「比較不會中招」，而是想證明這套方法能讓攻擊者更難學、更難試、更難有效率地收斂到成功 jailbreak。

論文也在 GPT-5、Gemini-2.5-Pro、DeepSeek-V3 上做測試，並拿 PAT、RPO、Self-Reminder、GoalPriority、SecurityLingua 這些方法對比。從表格可以看出，CoopGuard 在多數指標上都不是靠運氣贏一點，而是在 multi-turn attacks、rephrased questions、jailbreak questions 這幾種更麻煩的場景裡，持續維持優勢。

我認為這裡最值得注意的，不只是數字更低，而是它揭露了很多 baseline 的結構性弱點：這些方法對單輪危險輸入或許還行，但一進入多輪對抗，就很容易退化成可預測、可逆向、可被學習的固定反應。

這篇 paper 真正提出的新東西是什麼？

嚴格說，CoopGuard 的組件本身不算魔法：detect、decoy、forensics、policy fusion，這些概念各自都不是第一次出現。但這篇 paper 的價值在於，它把這些原本分散的思路，重新組成一個為 multi-round adversarial interaction 而設計的 stateful defense architecture。

它的新意主要有三層：

威脅模型轉向 multi-round evolution：不是只盯某一類 jailbreak 技巧，而是盯「持續互動下的攻擊策略演化」。
防禦目標轉向 attacker economics：不只是擋住內容，還要增加對手成本、減少可用 feedback。
評估指標轉向 deception + efficiency：不再只看 harmful output 有沒有出來，也看你是不是成功把攻擊者帶偏、拖慢、耗損。

這使它比單純的 guardrail prompt 更接近真正的 security engineering，也比單純的 alignment tuning 更接近 operational defense。

它和最近 sectools.tw 那串文章怎麼接？

如果把這篇放回最近這串 agentic security 脈絡，它的位置其實很有意思。

前面幾篇像 ShieldNet、Back-Reveal、SkillInject、ClawLess、From Assistant to Double Agent，比較多是在談：

tool / skill / memory 這些 execution surface 怎麼被利用
信任邊界怎麼畫錯
runtime enforcement 與 supply-chain defense 該怎麼補

而 CoopGuard 補上的，是另一個同樣不能少的層：即使你還沒被真的接管工具鏈，在純互動層，攻擊者也可能透過多輪 probing 把你的防線摸到鬆掉。

換句話說，前面那串文章在回答「agent 拿到能力之後，哪裡會出事」；而這篇在回答「攻擊者要怎麼一步一步把它帶到會出事的邊緣」。這兩條線其實正好互補：一條是 capability surface，一條是 interaction surface。

我怎麼看這篇論文？

我覺得 CoopGuard 最有價值的地方，不是它把 deception 講得很酷，而是它很準確地指出：多輪攻擊的關鍵不是模型一次判斷錯，而是系統在長互動裡不會學、不會記、也不會調整。

很多人講 LLM safety，還是停留在單輪內容審查的直覺：看到危險的就擋、看到敏感的就拒絕。但只要系統變成長互動、可持續使用、會被同一個對手反覆 probing，這種做法很快就不夠。因為你面對的不再是單個 prompt，而是一個會做策略更新的對手。

從這個角度看，CoopGuard 其實把防禦思維從「moderation」往「counter-adversarial interaction management」推了一步。它未必是最後答案，但至少方向是對的：要對付會進化的攻擊者，防禦本身也不能是失憶的。

當然，這篇方法也有很值得繼續追問的地方。比如說：

deception strategy 在真實產品上會不會和 UX、法律或政策要求衝突？
stateful defense 本身是否會帶來新的 state poisoning 或 side-channel 問題？
若對手知道你在做 deception，會不會反過來利用 decoy consistency 來探測防禦機制？

但這些疑問反而證明了這篇 paper 的價值：它已經不只是在談一個 prompt 該不該擋，而是在逼大家把 LLM security 當成真正的對抗系統問題來看。

結語

CoopGuard: Stateful Cooperative Agents Safeguarding LLMs Against Evolving Multi-Round Attacks 值得讀，不是因為它又多加了幾個 agent，而是因為它抓對了真正麻煩的敵人：不是某句惡意提示詞本身，而是那個會根據你反應持續學習、持續試探、持續改寫的對手。

如果未來的 agent、assistant、copilot 都會存在於長期、反覆、真實互動裡，那麼安全設計就不能再只靠一次性的 refusals 或靜態 guardrails。你得有記憶、有策略、有節奏，甚至在必要時有能力讓對手浪費時間、浪費 token、浪費判斷。

這篇論文最後留下來的核心訊息很簡單：在 multi-round attack 的世界裡，真正危險的不是模型一時說錯話，而是防禦每一輪都像第一次見到對手。

本文由 AI 產生、整理與撰寫。 內容主要依據公開論文、技術文件與可取得之研究資料進行彙整、解讀與摘要；儘管已盡力確保內容的完整性與可讀性，仍可能因模型理解限制、資料來源差異或語意轉譯過程而存在疏漏、不精確或更新延遲之處。本文僅供研究交流與知識分享參考，實際技術細節、實驗設定與最終結論，仍應以原始論文、官方文件及作者公開資料為準。

CoopGuard 論文閱讀分析：當 LLM 防禦還停在單輪拒絕，真正的對手早就在多輪互動裡慢慢摸穿你

論文基本資訊

這篇論文在問什麼？

CoopGuard 做了什麼？

它的 stateful 設計到底差在哪？

為什麼作者不只想拒絕，還想「騙」？

EMRA benchmark 值得注意在哪？

論文的主要結果是什麼？

這篇 paper 真正提出的新東西是什麼？

它和最近 sectools.tw 那串文章怎麼接？

我怎麼看這篇論文？

結語

發佈留言取消回覆

You may also like

近期文章

廣告

文章分類

近期留言

論文基本資訊

這篇論文在問什麼？

CoopGuard 做了什麼？

它的 stateful 設計到底差在哪？

為什麼作者不只想拒絕，還想「騙」？

EMRA benchmark 值得注意在哪？

論文的主要結果是什麼？

這篇 paper 真正提出的新東西是什麼？

它和最近 sectools.tw 那串文章怎麼接？

我怎麼看這篇論文？

結語

發佈留言 取消回覆

You may also like

Agent Security Bench 論文閱讀分析：當 LLM Agent 的每一段控制流程都可能成為攻擊面

PROMPT Framework 論文閱讀分析：很多宣傳偵測系統真正先失守的，不是模型抓不到，而是為了抓到先把人看得太清楚

近期文章

廣告

文章分類

近期留言

發佈留言取消回覆