SIREN 論文閱讀分析:很多 LLM 安全真正缺的,不是再多一個 guard,而是更早讀到模型腦內已經亮起來的紅燈
這篇論文最值得看的,不是又做出一個新的 guard model,而是把 harmfulness detection 往模型內部表示前移:用更少參數、更低延遲,提早讀出安全相關訊號,讓即時串流與執行期攔截更有機會真的落地。
2026 年 4 月 22 日
這篇論文最值得看的,不是又做出一個新的 guard model,而是把 harmfulness detection 往模型內部表示前移:用更少參數、更低延遲,提早讀出安全相關訊號,讓即時串流與執行期攔截更有機會真的落地。
這篇論文真正往前推的一點,是把 web agent 的安全判斷從主 agent 的 task reasoning 裡拆出來,變成一個平行運作的 guard model。它不只是再補一句 system prompt,而是在每一步 action 落地前,先讓另一個多模態 guard 檢查 HTML、screenshot 與使用者目標之間是否出現 prompt injection 風險。