Prompt Injection
2026
AgentWatcher 論文閱讀分析:真正該被檢查的,也許不是整份長上下文,而是那幾段已經開始接管 Agent 下一步的內容
本文由 AI 產生、整理與撰寫。 論文基...
MCP Client 論文閱讀分析:真正危險的不是 AI IDE 會不會寫錯,而是你以為它只是在幫你開發,其實它已經開始替外部內容執行命令
論文基本資訊 論文標題:Are AI-a...
Secure Agentic Web 論文閱讀分析:當 Agent 不再只是單機執行,而是開始彼此委派、跨網域串接,安全問題就會從單點失誤變成系統性擴散
本文由 AI 產生、整理與撰寫。 Sec...
Prompt Injection Threat Landscape 論文閱讀分析:很多 Agent 防禦之所以看起來有效,可能只是因為它們先把真正重要的上下文一起擋掉了
本文由 AI 產生、整理與撰寫。 Pro...
SkillJect 論文閱讀分析:當 Coding Agent 的 Skill 不再只是說明書,而是能被攻擊者反覆調校的高權限控制面
SkillJect 把 skill-based prompt injection 從手工 payload 提升成 trace-driven closed-loop attack:攻擊者不只在 skill 裡塞惡意意圖,還會根據 tool calls、file operations 與執行結果反覆修 payload,讓被污染的 skill 更像正常擴充、卻更穩地把 coding agent 帶往錯的行為。
Cybersecurity AI 論文閱讀分析:當 AI 資安工具開始自己打漏洞,最危險的反而可能是目標主機回給它看的那段內容
這篇論文把 prompt injection 拉進 AI-powered cybersecurity tools 的實戰場景:當 security agent 去掃描與利用惡意目標時,對方回傳的內容本身就可能變成控制訊號。作者在 14 種 attack variants 上觀察到 100% 成功率,並指出從初始接觸到 compromise 可以在 20 秒內完成。
AutoInject 論文閱讀分析:當 Prompt Injection 開始自己學會怎麼攻擊,防線就不能再假設對手只會手工拼字串
AutoInject 這篇論文最值得注意的,不是它又做出一個 prompt injection 範例,而是它把攻擊從人工 red teaming 推進成可被強化學習最佳化的自動化程序。當 adversarial suffix 能被系統化搜尋、又能跨模型與任務遷移時,很多仰賴固定模板與靜態字串規則的 agent 防線,就會開始撐不住。
WebAgentGuard 論文閱讀分析:當 Web Agent 真正需要的,不是更長的提示詞,而是一個會先說「先別動」的平行 Guard
這篇論文真正往前推的一點,是把 web agent 的安全判斷從主 agent 的 task reasoning 裡拆出來,變成一個平行運作的 guard model。它不只是再補一句 system prompt,而是在每一步 action 落地前,先讓另一個多模態 guard 檢查 HTML、screenshot 與使用者目標之間是否出現 prompt injection 風險。
Prompt Injection SoK 論文閱讀分析:真正該被治理的,早就不只是 prompt,而是整條 coding agent 會接觸到的控制面
這篇 Prompt Injection Attacks on Agentic Coding Assistants 的 SoK 把問題講得很完整:當 coding assistant 已經能讀檔、跑 shell、接 MCP、吃 skill 與 repo 規則檔時,風險就不再只是某段 prompt 有沒有惡意,而是整條從外部內容、工具描述、協定整合到設定持久化的控制面都可能被注入。真正要治理的,是 agent runtime 的信任邊界,而不是只靠過濾器擋幾句關鍵字。
