IICL 論文閱讀分析:很多安全對齊真正輸掉的,不是模型不知道危險,而是它太會把眼前的 pattern 補完
這篇論文真正重要的地方,不是又多一種 jailbreak 花招,而是指出 safety alignment 若主要還是行為偏好層,碰上更強的 few-shot pattern completion 時,就可能把控制權讓出去。
2026 年 4 月 22 日
這篇論文真正重要的地方,不是又多一種 jailbreak 花招,而是指出 safety alignment 若主要還是行為偏好層,碰上更強的 few-shot pattern completion 時,就可能把控制權讓出去。