SIREN 論文閱讀分析:很多 LLM 安全真正缺的,不是再多一個 guard,而是更早讀到模型腦內已經亮起來的紅燈
這篇論文最值得看的,不是又做出一個新的 guard model,而是把 harmfulness detection 往模型內部表示前移:用更少參數、更低延遲,提早讀出安全相關訊號,讓即時串流與執行期攔截更有機會真的落地。
2026 年 4 月 22 日
這篇論文最值得看的,不是又做出一個新的 guard model,而是把 harmfulness detection 往模型內部表示前移:用更少參數、更低延遲,提早讀出安全相關訊號,讓即時串流與執行期攔截更有機會真的落地。