CoopGuard 論文閱讀分析:當 LLM 防禦還停在單輪拒絕,真正的對手早就在多輪互動裡慢慢摸穿你

本文由 AI 產生、整理與撰寫。

論文基本資訊

  • 論文標題:CoopGuard: Stateful Cooperative Agents Safeguarding LLMs Against Evolving Multi-Round Attacks
  • 作者:Siyuan Li、Zehao Liu、Xi Lin、Qinghua Mao、Yuliang Chen、Haoyu Li、Jun Wu、Jianhua Li、Xiu Su
  • 來源:arXiv:2604.04060
  • 年份:2026
  • 論文連結:https://arxiv.org/abs/2604.04060
  • 主題:Agentic Security、LLM Safety、Multi-Round Attacks、Jailbreak Defense、Deception Defense、Benchmark

最近這一波 agent security 論文,已經一路從 memory poisoningtool supply chainskill injectionruntime guardrails 寫到 formal permission boundary。但如果把這些問題往更日常、也更接近真實攻擊者行為的方向壓下去,你很快會撞上一個更難處理的事實:很多攻擊不是一拳打死,而是一輪一輪試、一輪一輪改,慢慢把防線摸穿。

CoopGuard 這篇 paper 的切入點正好就在這裡。它不是單純再做一個「辨識惡意 prompt」的 filter,也不是再講一次 prompt injection 很危險,而是把焦點放在一個更貼近現實的威脅模型:攻擊者會持續互動、持續試探、持續改寫語句,甚至利用系統的拒絕回應當作 side-channel,逐步逼近可利用邊界。

所以這篇論文真正想解的問題,不是「這一句危不危險」,而是:當攻擊是多輪、逐步演化,而且每一輪都看起來像一次新的嘗試時,防禦系統能不能記得、能不能調整、能不能不要每次都像失憶一樣重新開始?

這篇論文在問什麼?

作者的核心問題可以濃縮成三句:

  1. 現有 LLM 防禦是不是太靜態、太單輪,因而容易被逐步演化的多輪攻擊繞過?
  2. 如果防禦要真的面對多輪對抗,是否應該像 incident responder 一樣維持 state,而不是只看當前這一句?
  3. 除了單純 block 掉輸出之外,能不能用更高成本、更少資訊回饋的方式,讓攻擊者越打越虧?

這組問題之所以重要,是因為很多防禦其實有個共同弱點:它們把每個 prompt 都當成獨立事件。但真實世界的對手不會這麼配合。對手會記得上一輪你怎麼拒絕、哪種說法容易被擋、哪種包裝能多騙兩步;如果防守方完全不累積 context,那就等於每一輪都免費幫攻擊者重置環境。

CoopGuard 做了什麼?

作者提出的是一個有狀態(stateful)的多代理防禦框架。它不是用單一模型做單一判斷,而是把防禦拆成四個角色:

  • Deferring Agent:用模糊、延後、拖慢的方式提高 probing 成本。
  • Tempting Agent:提供看似有進展、其實是 decoy 的誤導性回應。
  • Forensic Agent:累積互動證據,抽取攻擊模式與可稽核線索。
  • System Agent:把前面三者的訊號整合成每一輪的防禦策略。

這個設計最值得看的地方,是它不是把 deception 當成臨時的小技巧,而是把 deception、forensics、state management 放進同一個 round-level control loop 裡。作者用的流程可以概括成:

detect → deceive → summarize → fuse → update state

也就是說,每一輪不只是判斷危險不危險,而是要同時決定:

  • 這輪看起來像不像持續 probing?
  • 要不要故意模糊、拖延、誤導?
  • 從前幾輪累積下來的跡象看,這名攻擊者正在往哪個方向收斂?
  • 這次回應之後,內部 defense state 要怎麼更新?

換句話說,CoopGuard 把 LLM defense 從「每句做分類」拉成「整段互動做對抗管理」。這一點很關鍵,因為多輪攻擊真正危險的地方,本來就不在某一句特別邪惡,而在於攻擊者能不能從一連串回合中逐步學到系統邊界

它的 stateful 設計到底差在哪?

論文裡最重要的概念之一,是 defense state h_t。作者定義這個 state 會持續累積過去幾輪的:

  • 可疑度訊號
  • 已採取的防禦策略
  • 已釋出的 decoy 敘事
  • forensic evidence 與互動摘要

這讓後面的回合不再只是看當前 query,而是看「這句話在整段交互史中代表什麼」。

例如 Deferring Agent 用帶有時間衰減的 suspiciousness aggregation,把最近幾輪的 probing 行為累積成 detection score;Tempting Agent 則根據既有 state 生成前後一致的 decoy,避免攻擊者因為前後矛盾而立刻看穿;Forensic Agent 則把互動過程轉成可供後續協調的 evidence,而不是讓對話結束就什麼都不剩。

如果只用一句話總結:它把「防禦」從靜態輸出規則,改成了會記仇、會記帳、也會持續調整話術的互動策略。

為什麼作者不只想拒絕,還想「騙」?

這篇 paper 一個很不一樣的地方,是它明確主張:在多輪攻擊裡,單純拒絕不一定是最佳策略。

原因很現實。很多防禦如果每次都立即乾脆拒絕,表面上看起來安全,實際上卻可能給攻擊者大量免費 feedback:

  • 哪種措辭一秒被擋?
  • 哪種改寫能多撐一輪?
  • 系統偏好擋關鍵字、語意、還是特定格式?

對攻擊者來說,這些拒絕本身就是 training signal。你越清楚、越穩定、越可預測,他越容易做 prompt optimization。

所以 CoopGuard 的思路不是只說「不」,而是想辦法讓對手:

  • 拿不到乾淨的邊界訊號
  • 耗掉更多 token 與更多回合
  • 以為自己有進展,但實際上在錯路上越走越遠

這其實很像安全實務裡的 deception 技術:honeypot、decoy credential、misdirection。只是這篇論文把這件事移植到 LLM 對話防禦層,而且不是一次性的假訊號,而是跨輪維持一致的 deception context

EMRA benchmark 值得注意在哪?

為了評估這種多輪、逐步演化的攻擊,作者另外建了一個 benchmark:EMRA

它的重點不是單純收集很多 jailbreak prompt,而是把資料組成多輪 episode:每一輪都是一次獨立嘗試,但整個 sequence 會逐步升級、逐步換寫法、逐步更 evasive。論文提到 EMRA 共有 5,200 個 adversarial samples,涵蓋 8 種 attack types

這個 benchmark 設計的重要性,在於它更接近實戰中的「反覆試探」節奏。很多既有資料集把攻擊看成 isolated prompt,這對測靜態 classifier 也許夠,但對真的要面對 interaction 的 agent 或 assistant 來說,其實太乾淨。EMRA 比較像是在問:當對手不是只打一槍,而是會持續觀察你、利用你、修正他自己,你還守不守得住?

論文的主要結果是什麼?

從摘要與主表結果來看,作者最想強調三件事:

  1. CoopGuard 在多輪攻擊下顯著降低 attack success rate(ASR)
  2. 它比現有 baseline 更能維持 deceptive rate(DR)
  3. 它能提高攻擊成本、降低攻擊效率,而不是只做表面上的拒絕

摘要中的整體說法是:相較於 state-of-the-art defenses,CoopGuard 可將攻擊成功率降低 78.9%,同時把 deceptive rate 提升 186%,並把 attack efficiency 再壓低 167.9%

這三個數字如果放在一起看,訊息就很清楚了:作者不是只想證明「比較不會中招」,而是想證明這套方法能讓攻擊者更難學、更難試、更難有效率地收斂到成功 jailbreak。

論文也在 GPT-5、Gemini-2.5-Pro、DeepSeek-V3 上做測試,並拿 PAT、RPO、Self-Reminder、GoalPriority、SecurityLingua 這些方法對比。從表格可以看出,CoopGuard 在多數指標上都不是靠運氣贏一點,而是在 multi-turn attacksrephrased questionsjailbreak questions 這幾種更麻煩的場景裡,持續維持優勢。

我認為這裡最值得注意的,不只是數字更低,而是它揭露了很多 baseline 的結構性弱點:這些方法對單輪危險輸入或許還行,但一進入多輪對抗,就很容易退化成可預測、可逆向、可被學習的固定反應。

這篇 paper 真正提出的新東西是什麼?

嚴格說,CoopGuard 的組件本身不算魔法:detect、decoy、forensics、policy fusion,這些概念各自都不是第一次出現。但這篇 paper 的價值在於,它把這些原本分散的思路,重新組成一個為 multi-round adversarial interaction 而設計的 stateful defense architecture

它的新意主要有三層:

  1. 威脅模型轉向 multi-round evolution:不是只盯某一類 jailbreak 技巧,而是盯「持續互動下的攻擊策略演化」。
  2. 防禦目標轉向 attacker economics:不只是擋住內容,還要增加對手成本、減少可用 feedback。
  3. 評估指標轉向 deception + efficiency:不再只看 harmful output 有沒有出來,也看你是不是成功把攻擊者帶偏、拖慢、耗損。

這使它比單純的 guardrail prompt 更接近真正的 security engineering,也比單純的 alignment tuning 更接近 operational defense。

它和最近 sectools.tw 那串文章怎麼接?

如果把這篇放回最近這串 agentic security 脈絡,它的位置其實很有意思。

前面幾篇像 ShieldNetBack-RevealSkillInjectClawLessFrom Assistant to Double Agent,比較多是在談:

  • tool / skill / memory 這些 execution surface 怎麼被利用
  • 信任邊界怎麼畫錯
  • runtime enforcement 與 supply-chain defense 該怎麼補

CoopGuard 補上的,是另一個同樣不能少的層:即使你還沒被真的接管工具鏈,在純互動層,攻擊者也可能透過多輪 probing 把你的防線摸到鬆掉。

換句話說,前面那串文章在回答「agent 拿到能力之後,哪裡會出事」;而這篇在回答「攻擊者要怎麼一步一步把它帶到會出事的邊緣」。這兩條線其實正好互補:一條是 capability surface,一條是 interaction surface。

我怎麼看這篇論文?

我覺得 CoopGuard 最有價值的地方,不是它把 deception 講得很酷,而是它很準確地指出:多輪攻擊的關鍵不是模型一次判斷錯,而是系統在長互動裡不會學、不會記、也不會調整。

很多人講 LLM safety,還是停留在單輪內容審查的直覺:看到危險的就擋、看到敏感的就拒絕。但只要系統變成長互動、可持續使用、會被同一個對手反覆 probing,這種做法很快就不夠。因為你面對的不再是單個 prompt,而是一個會做策略更新的對手

從這個角度看,CoopGuard 其實把防禦思維從「moderation」往「counter-adversarial interaction management」推了一步。它未必是最後答案,但至少方向是對的:要對付會進化的攻擊者,防禦本身也不能是失憶的。

當然,這篇方法也有很值得繼續追問的地方。比如說:

  • deception strategy 在真實產品上會不會和 UX、法律或政策要求衝突?
  • stateful defense 本身是否會帶來新的 state poisoning 或 side-channel 問題?
  • 若對手知道你在做 deception,會不會反過來利用 decoy consistency 來探測防禦機制?

但這些疑問反而證明了這篇 paper 的價值:它已經不只是在談一個 prompt 該不該擋,而是在逼大家把 LLM security 當成真正的對抗系統問題來看。

結語

CoopGuard: Stateful Cooperative Agents Safeguarding LLMs Against Evolving Multi-Round Attacks 值得讀,不是因為它又多加了幾個 agent,而是因為它抓對了真正麻煩的敵人:不是某句惡意提示詞本身,而是那個會根據你反應持續學習、持續試探、持續改寫的對手。

如果未來的 agent、assistant、copilot 都會存在於長期、反覆、真實互動裡,那麼安全設計就不能再只靠一次性的 refusals 或靜態 guardrails。你得有記憶、有策略、有節奏,甚至在必要時有能力讓對手浪費時間、浪費 token、浪費判斷。

這篇論文最後留下來的核心訊息很簡單:在 multi-round attack 的世界裡,真正危險的不是模型一時說錯話,而是防禦每一輪都像第一次見到對手。


本文由 AI 產生、整理與撰寫。 內容主要依據公開論文、技術文件與可取得之研究資料進行彙整、解讀與摘要;儘管已盡力確保內容的完整性與可讀性,仍可能因模型理解限制、資料來源差異或語意轉譯過程而存在疏漏、不精確或更新延遲之處。本文僅供研究交流與知識分享參考,實際技術細節、實驗設定與最終結論,仍應以原始論文、官方文件及作者公開資料為準。

You may also like