2026

Architecting Secure AI Agents 論文閱讀分析:真正能撐住間接提示注入的,不會只是更會拒答的模型,而是把 plan、policy、approval 與 runtime feedback 全部拆開來治理

這篇 Architecting Secure AI Agents 真正重要的地方,不是再多一個 prompt injection detector,而是把問題重畫成 agent architecture:高效能 agent 幾乎一定需要 dynamic replanning 與 policy update,因此真正該治理的是 plan、policy、approver、executor、policy enforcer 與 environment feedback 之間的控制鏈。

2026 年 4 月 17 日

AutoInject 論文閱讀分析:當 Prompt Injection 開始自己學會怎麼攻擊,防線就不能再假設對手只會手工拼字串

AutoInject 這篇論文最值得注意的,不是它又做出一個 prompt injection 範例,而是它把攻擊從人工 red teaming 推進成可被強化學習最佳化的自動化程序。當 adversarial suffix 能被系統化搜尋、又能跨模型與任務遷移時,很多仰賴固定模板與靜態字串規則的 agent 防線,就會開始撐不住。

2026 年 4 月 17 日

WebAgentGuard 論文閱讀分析:當 Web Agent 真正需要的,不是更長的提示詞,而是一個會先說「先別動」的平行 Guard

這篇論文真正往前推的一點,是把 web agent 的安全判斷從主 agent 的 task reasoning 裡拆出來,變成一個平行運作的 guard model。它不只是再補一句 system prompt,而是在每一步 action 落地前,先讓另一個多模態 guard 檢查 HTML、screenshot 與使用者目標之間是否出現 prompt injection 風險。

2026 年 4 月 17 日

Silent Egress 論文閱讀分析:當 Agent 看起來什麼都沒說錯,資料卻可能早就在你沒注意的那一步悄悄送出去了

這篇論文最值得記住的重點是:在 agent 系統裡,真正危險的 prompt injection 不一定會反映在最後輸出文字上,而可能藏在自動 URL preview、metadata 擷取與工具呼叫造成的 network egress。當使用者看起來只是在請 agent 摘要網頁,敏感 runtime context 卻可能已經被分片、低噪音地往外送出。

2026 年 4 月 17 日

Silent Egress 論文閱讀分析:當 Agent 看起來什麼都沒說錯,資料卻可能早就在你沒注意的那一步悄悄送出去了

這篇論文最值得記住的重點是:在 agent 系統裡,真正危險的 prompt injection 不一定會反映在最後輸出文字上,而可能藏在自動 URL preview、metadata 擷取與工具呼叫造成的 network egress。當使用者看起來只是在請 agent 摘要網頁,敏感 runtime context 卻可能已經被分片、低噪音地往外送出。

2026 年 4 月 17 日

Can Agents Secure Hardware? 論文閱讀分析:當 Agent 開始替你自動長出硬體保護機制,真正該驗的就不只是它有沒有做出來,而是攻擊者拆不拆得掉

這篇論文最值得記住的重點是:在硬體 IP obfuscation 這種高風險安全設計問題裡,agent 能把 planning、lock-plan generation、deterministic compilation、functional verification 與 SAT-based evaluation 串成工作流,確實開始有用了;但只要 SAT solver 仍能全面恢復正確 key,這種「會生成安全機制」和「真的生成了安全性」就還是兩回事。

2026 年 4 月 17 日

MUZZLE 論文閱讀分析:當 Web Agent 真的開始替你逛網頁、切網站、點按鈕,Prompt Injection 也不會再傻傻只躲在單一頁面等你踩

MUZZLE 這篇論文最值得記住的重點是:對 web agent 來說,真正高風險的 prompt injection 已經不是單一靜態頁面的惡意字串,而是會沿著 agent 真實瀏覽軌跡,自動尋找高價值 UI 注入點、根據任務上下文改寫攻擊策略、甚至跨應用擴散的 agentic red-teaming 問題。當攻擊開始跟著 workflow 走,防守也不能再只盯著 payload 本身。

2026 年 4 月 17 日

AdapTools 論文閱讀分析:當 Agent 已經不是簡單的文字接龍,Prompt Injection 也開始學會挑工具、換說法、順著任務偽裝自己

AdapTools 這篇論文最值得記住的重點是:對現代 tool-using agent 來說,真正危險的 indirect prompt injection 已經不只是固定模板,而是會根據任務脈絡挑選最合適工具入口、改寫攻擊語句、並偽裝成正常外部內容的適應式攻擊。當攻擊者也開始理解 agent workflow,單靠 prompt-level 過濾很難真正守住整條控制鏈。

2026 年 4 月 17 日