Embedding Security

這篇論文最值得看的，不是它又做了一個 jailbreak detector，而是它把 multilingual LLM safety 的核心破口講清楚：很多防線其實只守住英文表面，一旦攻擊者改用其他語言，guardrail 可能就整段鬆掉。作者用固定英文 codebook 加 multilingual embeddings，驗證這種外掛式 semantic filter 對模板化跨語言越獄很有效，但在異質、分布漂移的攻擊上很快撞到上限。

2026 年 4 月 29 日

Embedding Security

2026

跨語言 Jailbreak 論文閱讀分析：很多 multilingual guardrail 真正缺的，不是翻譯規則，而是守住 harmful intent 本身

近期文章

廣告

文章分類

近期留言