Multi-Agent Defense Pipeline 論文閱讀分析:當 Prompt Injection 已經變成流程戰,防線也該是多角色聯防
這篇論文的核心不是再寫一段更強的 system prompt,而是把 prompt injection 防禦拆成多個專職 agent 串成 pipeline。作者在 55 種攻擊、400 個實例上把 baseline 的 20–30% ASR 壓到 0%,重點訊號是:當攻擊已經是流程層問題,防守也要走流程層設計。
這篇論文的核心不是再寫一段更強的 system prompt,而是把 prompt injection 防禦拆成多個專職 agent 串成 pipeline。作者在 55 種攻擊、400 個實例上把 baseline 的 20–30% ASR 壓到 0%,重點訊號是:當攻擊已經是流程層問題,防守也要走流程層設計。
本文由 AI 產生、整理與撰寫。 Ret...
論文基本資訊 論文標題:Clawed a...
PAuth 最值得看的地方,不是再補一層 prompt injection detector,而是直接指出 agent 時代沿用 OAuth 這種 operator-scoped authorization,幾乎註定會造成 overprivileged agents;真正該授權的是任務中那個具體操作,而不是整類工具能力。
ToolHijacker 最值得警惕的地方,不是再證明一次 prompt injection 存在,而是把風險往前推到 tool retrieval 與 selection 本身:惡意工具文件不只是在執行後作惡,而是能在 no-box 條件下同時劫持被檢索與被選上的過程。
本文由 AI 產生、整理與撰寫。 論文基...
這篇論文真正有價值的地方,是把近年的 AutoPT 熱潮從 hype 拉回工程現實。作者在統一 benchmark 下比較 13 個 framework 後指出,真正拖垮自動滲透 agent 的,常常不是工具不夠多,也不是 agent role 不夠花,而是 memory 管理、knowledge alignment 與 hallucination control 沒做好。
這篇論文真正重要的地方,不是再一次說 prompt injection 很危險,而是指出它已經開始和 XSS、CSRF、SQL 生成與多代理感染混成同一條攻擊鏈。當 agent 接上 web、工具與高權限工作流,問題就不再只是模型會不會被一句話帶偏,而是整條控制鏈會不會替攻擊者跨過授權邊界。
這篇論文真正重要的地方,是把 prompt injection 從幾個大家熟悉的示範 payload,拉回成一張可量測的攻擊地圖。作者發現最耐打的往往不是最直白的攻擊,而是混淆、情緒操控、獎勵框架與複合式規避這些更像正常語言的 stealthy strategies。
論文基本資訊 論文標題:Securing...