跨語言 Jailbreak 論文閱讀分析:很多 multilingual guardrail 真正缺的,不是翻譯規則,而是守住 harmful intent 本身
這篇論文最值得看的,不是它又做了一個 jailbreak detector,而是它把 multilingual LLM safety 的核心破口講清楚:很多防線其實只守住英文表面,一旦攻擊者改用其他語言,guardrail 可能就整段鬆掉。作者用固定英文 codebook 加 multilingual embeddings,驗證這種外掛式 semantic filter 對模板化跨語言越獄很有效,但在異質、分布漂移的攻擊上很快撞到上限。
2026 年 4 月 29 日
