Web Agents

2026

WebAgentGuard 論文閱讀分析:當 Web Agent 真正需要的,不是更長的提示詞,而是一個會先說「先別動」的平行 Guard

這篇論文真正往前推的一點,是把 web agent 的安全判斷從主 agent 的 task reasoning 裡拆出來,變成一個平行運作的 guard model。它不只是再補一句 system prompt,而是在每一步 action 落地前,先讓另一個多模態 guard 檢查 HTML、screenshot 與使用者目標之間是否出現 prompt injection 風險。

2026 年 4 月 17 日

MUZZLE 論文閱讀分析:當 Web Agent 真的開始替你逛網頁、切網站、點按鈕,Prompt Injection 也不會再傻傻只躲在單一頁面等你踩

MUZZLE 這篇論文最值得記住的重點是:對 web agent 來說,真正高風險的 prompt injection 已經不是單一靜態頁面的惡意字串,而是會沿著 agent 真實瀏覽軌跡,自動尋找高價值 UI 注入點、根據任務上下文改寫攻擊策略、甚至跨應用擴散的 agentic red-teaming 問題。當攻擊開始跟著 workflow 走,防守也不能再只盯著 payload 本身。

2026 年 4 月 17 日