Alignment Repair

ARES 論文閱讀分析：很多安全對齊真正先壞掉的，不是模型單點失守，而是 policy 跟 reward model 一起誤判了同一件危險事

這篇論文最值得看的地方，不是又做了一套 jailbreak framework，而是把 RLHF 系統裡 policy model 與 reward model 的共同失效面抓出來：如果 actor 跟 judge 共享同一種安全盲點，整條 alignment pipeline 會一起鬆手。

2026 年 4 月 22 日