Agentic AI

2026

SnapGuard 論文閱讀分析:很多 screenshot-based web agent 真正缺的,不是更大的模型,而是先有夠快的第一道守門員

這篇論文真正補到的,不是再提醒一次 web agent 會被頁面上的惡意指令帶偏,而是把問題切到 screenshot-based agent 的真實痛點:當模型看到的是整張被渲染過的畫面時,text-only guardrail 常常不夠,而每一步都丟大 VLM 又太重。作者提出 SnapGuard,用視覺穩定性與 action-oriented 文字訊號做輕量級多模態檢測,重點不是追求完美,而是替 browser agent 補上一個夠快、夠便宜、能先攔下可疑畫面的第一道守門員。

2026 年 4 月 29 日

AutoRISE 論文閱讀分析:很多 LLM red teaming 真正缺的,不是再多一條 prompt,而是讓攻擊策略自己進化

這篇論文真正麻煩的地方,不是又多了幾句會 jailbreak 的 prompt,而是把 automated red teaming 從「改寫提示詞」往上抬成「改寫整個攻擊策略程式」。AutoRISE 讓 coding agent 直接編輯 strategy.py,根據固定 evaluation harness 回傳的成功率、多樣性、新穎性與覆蓋率訊號持續演化 attack pipeline。對防守方來說,這提醒我們真正要面對的可能已經不是 prompt collection,而是會自己換打法的攻擊者。

2026 年 4 月 29 日

Conjunctive Prompt Attacks 論文閱讀分析:真正難防的不是哪段內容特別毒,而是兩段各自都像正常話的東西在對的路由上剛好拼起來

這篇論文最值得警惕的地方,不是又多了一種 prompt injection,而是把多代理風險從單點惡意內容拉成跨代理組合條件:user query 裡看似無害的 trigger key,配上被污染 remote agent 的 hidden template,單獨都不夠可疑,但只要 routing 把它們送到同一個地方,整條 agent pipeline 就可能突然變成攻擊面。

2026 年 4 月 21 日

Can Agents Secure Hardware? 論文閱讀分析:當 Agent 開始替你自動長出硬體保護機制,真正該驗的就不只是它有沒有做出來,而是攻擊者拆不拆得掉

這篇論文最值得記住的重點是:在硬體 IP obfuscation 這種高風險安全設計問題裡,agent 能把 planning、lock-plan generation、deterministic compilation、functional verification 與 SAT-based evaluation 串成工作流,確實開始有用了;但只要 SAT solver 仍能全面恢復正確 key,這種「會生成安全機制」和「真的生成了安全性」就還是兩回事。

2026 年 4 月 17 日