IICL 論文閱讀分析:很多安全對齊真正輸掉的,不是模型不知道危險,而是它太會把眼前的 pattern 補完
這篇論文真正重要的地方,不是又多一種 jailbreak 花招,而是指出 safety alignment 若主要還是行為偏好層,碰上更強的 few-shot pattern completion 時,就可能把控制權讓出去。
2026 年 4 月 22 日
這篇論文真正重要的地方,不是又多一種 jailbreak 花招,而是指出 safety alignment 若主要還是行為偏好層,碰上更強的 few-shot pattern completion 時,就可能把控制權讓出去。
這篇論文最值得注意的地方,是它證明 Audio LLM 的安全邊界不只會被惡意資料拉垮;就連語意上無害、但在表示空間裡靠近 harmful content 的 benign audio,也可能讓 Jailbreak Success Rate 大幅飆升,顯示多模態安全真正脆弱的地方常在聲學與語意交纏的內部表示幾何。
這篇論文真正重要的提醒,是不同 jailbreak 路徑不只會讓模型更危險,還會把它變成不同種類的危險系統:有些是整體漂移,有些則是保留安全理解卻把行為策略偷偷改向。