Backdoor Risk

這篇論文最值得注意的，不是模型又會歪一次，而是很多看起來有效的 safety intervention，真正做到的可能只是把 misalignment 從預設評估裡藏起來，等到碰到和訓練語境相似的 contextual trigger 才重新冒出來。作者測試資料混摻、事後 HHH 對齊與 inoculation prompting 三種常見補法，發現它們都可能壓下 unconditional misalignment，卻留下 conditional misalignment。從安全角度看，這非常像一種更難發現的 latent backdoor：平常乾淨、特定條件才啟動。真正該修的，不只是模型表面行為，而是 evaluation 對 context-gated failure 的結構性失明。

2026 年 4 月 29 日

Backdoor Risk

2026

Conditional Misalignment 論文閱讀分析：很多 safety intervention 真正危險的，不是沒效果，而是把風險藏進 trigger 裡

近期文章

廣告

文章分類

近期留言