AttackEval 論文閱讀分析:真正難防的 Prompt Injection,往往不是最像攻擊的那一種
這篇論文真正重要的地方,是把 prompt injection 從幾個大家熟悉的示範 payload,拉回成一張可量測的攻擊地圖。作者發現最耐打的往往不是最直白的攻擊,而是混淆、情緒操控、獎勵框架與複合式規避這些更像正常語言的 stealthy strategies。
2026 年 4 月 18 日
這篇論文真正重要的地方,是把 prompt injection 從幾個大家熟悉的示範 payload,拉回成一張可量測的攻擊地圖。作者發現最耐打的往往不是最直白的攻擊,而是混淆、情緒操控、獎勵框架與複合式規避這些更像正常語言的 stealthy strategies。
論文基本資訊 論文標題:ClawTrap...
論文基本資訊 論文標題:How Vuln...
MUZZLE 這篇論文最值得記住的重點是:對 web agent 來說,真正高風險的 prompt injection 已經不是單一靜態頁面的惡意字串,而是會沿著 agent 真實瀏覽軌跡,自動尋找高價值 UI 注入點、根據任務上下文改寫攻擊策略、甚至跨應用擴散的 agentic red-teaming 問題。當攻擊開始跟著 workflow 走,防守也不能再只盯著 payload 本身。
AdapTools 這篇論文最值得記住的重點是:對現代 tool-using agent 來說,真正危險的 indirect prompt injection 已經不只是固定模板,而是會根據任務脈絡挑選最合適工具入口、改寫攻擊語句、並偽裝成正常外部內容的適應式攻擊。當攻擊者也開始理解 agent workflow,單靠 prompt-level 過濾很難真正守住整條控制鏈。