ARES 論文閱讀分析:很多安全對齊真正先壞掉的,不是模型單點失守,而是 policy 跟 reward model 一起誤判了同一件危險事
這篇論文最值得看的地方,不是又做了一套 jailbreak framework,而是把 RLHF 系統裡 policy model 與 reward model 的共同失效面抓出來:如果 actor 跟 judge 共享同一種安全盲點,整條 alignment pipeline 會一起鬆手。
2026 年 4 月 22 日
這篇論文最值得看的地方,不是又做了一套 jailbreak framework,而是把 RLHF 系統裡 policy model 與 reward model 的共同失效面抓出來:如果 actor 跟 judge 共享同一種安全盲點,整條 alignment pipeline 會一起鬆手。