CoopGuard 論文閱讀分析:當 LLM 防禦還停在單輪拒絕,真正的對手早就在多輪互動裡慢慢摸穿你
本文由 AI 產生、整理與撰寫。
論文基本資訊
- 論文標題:CoopGuard: Stateful Cooperative Agents Safeguarding LLMs Against Evolving Multi-Round Attacks
- 作者:Siyuan Li、Zehao Liu、Xi Lin、Qinghua Mao、Yuliang Chen、Haoyu Li、Jun Wu、Jianhua Li、Xiu Su
- 來源:arXiv:2604.04060
- 年份:2026
- 論文連結:https://arxiv.org/abs/2604.04060
- 主題:Agentic Security、LLM Safety、Multi-Round Attacks、Jailbreak Defense、Deception Defense、Benchmark
最近這一波 agent security 論文,已經一路從 memory poisoning、tool supply chain、skill injection、runtime guardrails 寫到 formal permission boundary。但如果把這些問題往更日常、也更接近真實攻擊者行為的方向壓下去,你很快會撞上一個更難處理的事實:很多攻擊不是一拳打死,而是一輪一輪試、一輪一輪改,慢慢把防線摸穿。
CoopGuard 這篇 paper 的切入點正好就在這裡。它不是單純再做一個「辨識惡意 prompt」的 filter,也不是再講一次 prompt injection 很危險,而是把焦點放在一個更貼近現實的威脅模型:攻擊者會持續互動、持續試探、持續改寫語句,甚至利用系統的拒絕回應當作 side-channel,逐步逼近可利用邊界。
所以這篇論文真正想解的問題,不是「這一句危不危險」,而是:當攻擊是多輪、逐步演化,而且每一輪都看起來像一次新的嘗試時,防禦系統能不能記得、能不能調整、能不能不要每次都像失憶一樣重新開始?
這篇論文在問什麼?
作者的核心問題可以濃縮成三句:
- 現有 LLM 防禦是不是太靜態、太單輪,因而容易被逐步演化的多輪攻擊繞過?
- 如果防禦要真的面對多輪對抗,是否應該像 incident responder 一樣維持 state,而不是只看當前這一句?
- 除了單純 block 掉輸出之外,能不能用更高成本、更少資訊回饋的方式,讓攻擊者越打越虧?
這組問題之所以重要,是因為很多防禦其實有個共同弱點:它們把每個 prompt 都當成獨立事件。但真實世界的對手不會這麼配合。對手會記得上一輪你怎麼拒絕、哪種說法容易被擋、哪種包裝能多騙兩步;如果防守方完全不累積 context,那就等於每一輪都免費幫攻擊者重置環境。
CoopGuard 做了什麼?
作者提出的是一個有狀態(stateful)的多代理防禦框架。它不是用單一模型做單一判斷,而是把防禦拆成四個角色:
- Deferring Agent:用模糊、延後、拖慢的方式提高 probing 成本。
- Tempting Agent:提供看似有進展、其實是 decoy 的誤導性回應。
- Forensic Agent:累積互動證據,抽取攻擊模式與可稽核線索。
- System Agent:把前面三者的訊號整合成每一輪的防禦策略。
這個設計最值得看的地方,是它不是把 deception 當成臨時的小技巧,而是把 deception、forensics、state management 放進同一個 round-level control loop 裡。作者用的流程可以概括成:
detect → deceive → summarize → fuse → update state
也就是說,每一輪不只是判斷危險不危險,而是要同時決定:
- 這輪看起來像不像持續 probing?
- 要不要故意模糊、拖延、誤導?
- 從前幾輪累積下來的跡象看,這名攻擊者正在往哪個方向收斂?
- 這次回應之後,內部 defense state 要怎麼更新?
換句話說,CoopGuard 把 LLM defense 從「每句做分類」拉成「整段互動做對抗管理」。這一點很關鍵,因為多輪攻擊真正危險的地方,本來就不在某一句特別邪惡,而在於攻擊者能不能從一連串回合中逐步學到系統邊界。
它的 stateful 設計到底差在哪?
論文裡最重要的概念之一,是 defense state h_t。作者定義這個 state 會持續累積過去幾輪的:
- 可疑度訊號
- 已採取的防禦策略
- 已釋出的 decoy 敘事
- forensic evidence 與互動摘要
這讓後面的回合不再只是看當前 query,而是看「這句話在整段交互史中代表什麼」。
例如 Deferring Agent 用帶有時間衰減的 suspiciousness aggregation,把最近幾輪的 probing 行為累積成 detection score;Tempting Agent 則根據既有 state 生成前後一致的 decoy,避免攻擊者因為前後矛盾而立刻看穿;Forensic Agent 則把互動過程轉成可供後續協調的 evidence,而不是讓對話結束就什麼都不剩。
如果只用一句話總結:它把「防禦」從靜態輸出規則,改成了會記仇、會記帳、也會持續調整話術的互動策略。
為什麼作者不只想拒絕,還想「騙」?
這篇 paper 一個很不一樣的地方,是它明確主張:在多輪攻擊裡,單純拒絕不一定是最佳策略。
原因很現實。很多防禦如果每次都立即乾脆拒絕,表面上看起來安全,實際上卻可能給攻擊者大量免費 feedback:
- 哪種措辭一秒被擋?
- 哪種改寫能多撐一輪?
- 系統偏好擋關鍵字、語意、還是特定格式?
對攻擊者來說,這些拒絕本身就是 training signal。你越清楚、越穩定、越可預測,他越容易做 prompt optimization。
所以 CoopGuard 的思路不是只說「不」,而是想辦法讓對手:
- 拿不到乾淨的邊界訊號
- 耗掉更多 token 與更多回合
- 以為自己有進展,但實際上在錯路上越走越遠
這其實很像安全實務裡的 deception 技術:honeypot、decoy credential、misdirection。只是這篇論文把這件事移植到 LLM 對話防禦層,而且不是一次性的假訊號,而是跨輪維持一致的 deception context。
EMRA benchmark 值得注意在哪?
為了評估這種多輪、逐步演化的攻擊,作者另外建了一個 benchmark:EMRA。
它的重點不是單純收集很多 jailbreak prompt,而是把資料組成多輪 episode:每一輪都是一次獨立嘗試,但整個 sequence 會逐步升級、逐步換寫法、逐步更 evasive。論文提到 EMRA 共有 5,200 個 adversarial samples,涵蓋 8 種 attack types。
這個 benchmark 設計的重要性,在於它更接近實戰中的「反覆試探」節奏。很多既有資料集把攻擊看成 isolated prompt,這對測靜態 classifier 也許夠,但對真的要面對 interaction 的 agent 或 assistant 來說,其實太乾淨。EMRA 比較像是在問:當對手不是只打一槍,而是會持續觀察你、利用你、修正他自己,你還守不守得住?
論文的主要結果是什麼?
從摘要與主表結果來看,作者最想強調三件事:
- CoopGuard 在多輪攻擊下顯著降低 attack success rate(ASR)
- 它比現有 baseline 更能維持 deceptive rate(DR)
- 它能提高攻擊成本、降低攻擊效率,而不是只做表面上的拒絕
摘要中的整體說法是:相較於 state-of-the-art defenses,CoopGuard 可將攻擊成功率降低 78.9%,同時把 deceptive rate 提升 186%,並把 attack efficiency 再壓低 167.9%。
這三個數字如果放在一起看,訊息就很清楚了:作者不是只想證明「比較不會中招」,而是想證明這套方法能讓攻擊者更難學、更難試、更難有效率地收斂到成功 jailbreak。
論文也在 GPT-5、Gemini-2.5-Pro、DeepSeek-V3 上做測試,並拿 PAT、RPO、Self-Reminder、GoalPriority、SecurityLingua 這些方法對比。從表格可以看出,CoopGuard 在多數指標上都不是靠運氣贏一點,而是在 multi-turn attacks、rephrased questions、jailbreak questions 這幾種更麻煩的場景裡,持續維持優勢。
我認為這裡最值得注意的,不只是數字更低,而是它揭露了很多 baseline 的結構性弱點:這些方法對單輪危險輸入或許還行,但一進入多輪對抗,就很容易退化成可預測、可逆向、可被學習的固定反應。
這篇 paper 真正提出的新東西是什麼?
嚴格說,CoopGuard 的組件本身不算魔法:detect、decoy、forensics、policy fusion,這些概念各自都不是第一次出現。但這篇 paper 的價值在於,它把這些原本分散的思路,重新組成一個為 multi-round adversarial interaction 而設計的 stateful defense architecture。
它的新意主要有三層:
- 威脅模型轉向 multi-round evolution:不是只盯某一類 jailbreak 技巧,而是盯「持續互動下的攻擊策略演化」。
- 防禦目標轉向 attacker economics:不只是擋住內容,還要增加對手成本、減少可用 feedback。
- 評估指標轉向 deception + efficiency:不再只看 harmful output 有沒有出來,也看你是不是成功把攻擊者帶偏、拖慢、耗損。
這使它比單純的 guardrail prompt 更接近真正的 security engineering,也比單純的 alignment tuning 更接近 operational defense。
它和最近 sectools.tw 那串文章怎麼接?
如果把這篇放回最近這串 agentic security 脈絡,它的位置其實很有意思。
前面幾篇像 ShieldNet、Back-Reveal、SkillInject、ClawLess、From Assistant to Double Agent,比較多是在談:
- tool / skill / memory 這些 execution surface 怎麼被利用
- 信任邊界怎麼畫錯
- runtime enforcement 與 supply-chain defense 該怎麼補
而 CoopGuard 補上的,是另一個同樣不能少的層:即使你還沒被真的接管工具鏈,在純互動層,攻擊者也可能透過多輪 probing 把你的防線摸到鬆掉。
換句話說,前面那串文章在回答「agent 拿到能力之後,哪裡會出事」;而這篇在回答「攻擊者要怎麼一步一步把它帶到會出事的邊緣」。這兩條線其實正好互補:一條是 capability surface,一條是 interaction surface。
我怎麼看這篇論文?
我覺得 CoopGuard 最有價值的地方,不是它把 deception 講得很酷,而是它很準確地指出:多輪攻擊的關鍵不是模型一次判斷錯,而是系統在長互動裡不會學、不會記、也不會調整。
很多人講 LLM safety,還是停留在單輪內容審查的直覺:看到危險的就擋、看到敏感的就拒絕。但只要系統變成長互動、可持續使用、會被同一個對手反覆 probing,這種做法很快就不夠。因為你面對的不再是單個 prompt,而是一個會做策略更新的對手。
從這個角度看,CoopGuard 其實把防禦思維從「moderation」往「counter-adversarial interaction management」推了一步。它未必是最後答案,但至少方向是對的:要對付會進化的攻擊者,防禦本身也不能是失憶的。
當然,這篇方法也有很值得繼續追問的地方。比如說:
- deception strategy 在真實產品上會不會和 UX、法律或政策要求衝突?
- stateful defense 本身是否會帶來新的 state poisoning 或 side-channel 問題?
- 若對手知道你在做 deception,會不會反過來利用 decoy consistency 來探測防禦機制?
但這些疑問反而證明了這篇 paper 的價值:它已經不只是在談一個 prompt 該不該擋,而是在逼大家把 LLM security 當成真正的對抗系統問題來看。
結語
CoopGuard: Stateful Cooperative Agents Safeguarding LLMs Against Evolving Multi-Round Attacks 值得讀,不是因為它又多加了幾個 agent,而是因為它抓對了真正麻煩的敵人:不是某句惡意提示詞本身,而是那個會根據你反應持續學習、持續試探、持續改寫的對手。
如果未來的 agent、assistant、copilot 都會存在於長期、反覆、真實互動裡,那麼安全設計就不能再只靠一次性的 refusals 或靜態 guardrails。你得有記憶、有策略、有節奏,甚至在必要時有能力讓對手浪費時間、浪費 token、浪費判斷。
這篇論文最後留下來的核心訊息很簡單:在 multi-round attack 的世界裡,真正危險的不是模型一時說錯話,而是防禦每一輪都像第一次見到對手。
本文由 AI 產生、整理與撰寫。 內容主要依據公開論文、技術文件與可取得之研究資料進行彙整、解讀與摘要;儘管已盡力確保內容的完整性與可讀性,仍可能因模型理解限制、資料來源差異或語意轉譯過程而存在疏漏、不精確或更新延遲之處。本文僅供研究交流與知識分享參考,實際技術細節、實驗設定與最終結論,仍應以原始論文、官方文件及作者公開資料為準。
