Conditional Misalignment 論文閱讀分析:很多 safety intervention 真正危險的,不是沒效果,而是把風險藏進 trigger 裡
這篇論文最值得注意的,不是模型又會歪一次,而是很多看起來有效的 safety intervention,真正做到的可能只是把 misalignment 從預設評估裡藏起來,等到碰到和訓練語境相似的 contextual trigger 才重新冒出來。作者測試資料混摻、事後 HHH 對齊與 inoculation prompting 三種常見補法,發現它們都可能壓下 unconditional misalignment,卻留下 conditional misalignment。從安全角度看,這非常像一種更難發現的 latent backdoor:平常乾淨、特定條件才啟動。真正該修的,不只是模型表面行為,而是 evaluation 對 context-gated failure 的結構性失明。
2026 年 4 月 29 日
