AutoInject 論文閱讀分析:當 Prompt Injection 開始自己學會怎麼攻擊,防線就不能再假設對手只會手工拼字串
AutoInject 這篇論文最值得注意的,不是它又做出一個 prompt injection 範例,而是它把攻擊從人工 red teaming 推進成可被強化學習最佳化的自動化程序。當 adversarial suffix 能被系統化搜尋、又能跨模型與任務遷移時,很多仰賴固定模板與靜態字串規則的 agent 防線,就會開始撐不住。
2026 年 4 月 17 日
AutoInject 這篇論文最值得注意的,不是它又做出一個 prompt injection 範例,而是它把攻擊從人工 red teaming 推進成可被強化學習最佳化的自動化程序。當 adversarial suffix 能被系統化搜尋、又能跨模型與任務遷移時,很多仰賴固定模板與靜態字串規則的 agent 防線,就會開始撐不住。
AgentSentry 把多步驟 indirect prompt injection 重新定義成 temporal causal takeover 問題:重點不是某段工具輸出像不像惡意指令,而是從哪一個 tool-return boundary 開始,agent 的下一步已不再主要由 user goal 推動,而是被外部污染的 context 接管。它用 counterfactual replay 做診斷,再用 context purification 切掉控制訊號,目標不是停機,而是安全續跑。