Internal Representations

這篇論文最值得看的，不是又做出一個新的 guard model，而是把 harmfulness detection 往模型內部表示前移：用更少參數、更低延遲，提早讀出安全相關訊號，讓即時串流與執行期攔截更有機會真的落地。

2026 年 4 月 22 日

SIREN 論文閱讀分析：很多 LLM 安全真正缺的，不是再多一個 guard，而是更早讀到模型腦內已經亮起來的紅燈