World Model

這篇論文真正補到的，不是又一個逐輪 guardrail，而是把 multi-turn jailbreak 當成安全狀態逐步侵蝕的時間序列問題來看。SafeDream 用 safety world model、CUSUM 與 contrastive imagination，嘗試在模型真正開始 compliance 前約 1 輪就先發現失守軌跡。

2026 年 4 月 23 日

World Model

2026

SafeDream 論文閱讀分析：很多多輪 jailbreak 真正危險的，不是某句突然失守，而是整段對話正在把模型慢慢推向 compliance

近期文章

廣告

文章分類

近期留言