Web Agents

2026

SnapGuard 論文閱讀分析:很多 screenshot-based web agent 真正缺的,不是更大的模型,而是先有夠快的第一道守門員

這篇論文真正補到的,不是再提醒一次 web agent 會被頁面上的惡意指令帶偏,而是把問題切到 screenshot-based agent 的真實痛點:當模型看到的是整張被渲染過的畫面時,text-only guardrail 常常不夠,而每一步都丟大 VLM 又太重。作者提出 SnapGuard,用視覺穩定性與 action-oriented 文字訊號做輕量級多模態檢測,重點不是追求完美,而是替 browser agent 補上一個夠快、夠便宜、能先攔下可疑畫面的第一道守門員。

2026 年 4 月 29 日

WebAgentGuard 論文閱讀分析:當 Web Agent 真正需要的,不是更長的提示詞,而是一個會先說「先別動」的平行 Guard

這篇論文真正往前推的一點,是把 web agent 的安全判斷從主 agent 的 task reasoning 裡拆出來,變成一個平行運作的 guard model。它不只是再補一句 system prompt,而是在每一步 action 落地前,先讓另一個多模態 guard 檢查 HTML、screenshot 與使用者目標之間是否出現 prompt injection 風險。

2026 年 4 月 17 日

MUZZLE 論文閱讀分析:當 Web Agent 真的開始替你逛網頁、切網站、點按鈕,Prompt Injection 也不會再傻傻只躲在單一頁面等你踩

MUZZLE 這篇論文最值得記住的重點是:對 web agent 來說,真正高風險的 prompt injection 已經不是單一靜態頁面的惡意字串,而是會沿著 agent 真實瀏覽軌跡,自動尋找高價值 UI 注入點、根據任務上下文改寫攻擊策略、甚至跨應用擴散的 agentic red-teaming 問題。當攻擊開始跟著 workflow 走,防守也不能再只盯著 payload 本身。

2026 年 4 月 17 日