Safety Alignment

這篇論文真正重要的地方，不是又多一種 jailbreak 花招，而是指出 safety alignment 若主要還是行為偏好層，碰上更強的 few-shot pattern completion 時，就可能把控制權讓出去。

2026 年 4 月 22 日

Audio LLM 論文閱讀分析：很多模型真正不是被惡意資料教壞，而是被那些看起來正常的聲音慢慢磨掉拒答邊界

這篇論文最值得注意的地方，是它證明 Audio LLM 的安全邊界不只會被惡意資料拉垮；就連語意上無害、但在表示空間裡靠近 harmful content 的 benign audio，也可能讓 Jailbreak Success Rate 大幅飆升，顯示多模態安全真正脆弱的地方常在聲學與語意交纏的內部表示幾何。

2026 年 4 月 22 日

Paper Survey

Jailbreak 路徑論文閱讀分析：不是每種越獄都只是把模型變壞，有些是把方向盤偷偷扭走

這篇論文真正重要的提醒，是不同 jailbreak 路徑不只會讓模型更危險，還會把它變成不同種類的危險系統：有些是整體漂移，有些則是保留安全理解卻把行為策略偷偷改向。

2026 年 4 月 21 日

Safety Alignment

2026

IICL 論文閱讀分析：很多安全對齊真正輸掉的，不是模型不知道危險，而是它太會把眼前的 pattern 補完

Audio LLM 論文閱讀分析：很多模型真正不是被惡意資料教壞，而是被那些看起來正常的聲音慢慢磨掉拒答邊界

Jailbreak 路徑論文閱讀分析：不是每種越獄都只是把模型變壞，有些是把方向盤偷偷扭走

近期文章

廣告

文章分類

近期留言