SafeDream 論文閱讀分析:很多多輪 jailbreak 真正危險的,不是某句突然失守,而是整段對話正在把模型慢慢推向 compliance
這篇論文真正補到的,不是又一個逐輪 guardrail,而是把 multi-turn jailbreak 當成安全狀態逐步侵蝕的時間序列問題來看。SafeDream 用 safety world model、CUSUM 與 contrastive imagination,嘗試在模型真正開始 compliance 前約 1 輪就先發現失守軌跡。
2026 年 4 月 23 日
