2026

跨語言 Jailbreak 論文閱讀分析:很多 multilingual guardrail 真正缺的,不是翻譯規則,而是守住 harmful intent 本身

這篇論文最值得看的,不是它又做了一個 jailbreak detector,而是它把 multilingual LLM safety 的核心破口講清楚:很多防線其實只守住英文表面,一旦攻擊者改用其他語言,guardrail 可能就整段鬆掉。作者用固定英文 codebook 加 multilingual embeddings,驗證這種外掛式 semantic filter 對模板化跨語言越獄很有效,但在異質、分布漂移的攻擊上很快撞到上限。

2026 年 4 月 29 日

AI 補助審查論文閱讀分析:很多高風險評分流程真正缺的,不是再多一份原則,而是證明它當時真的這樣跑

這篇 paper 真正有價值的,不是把 TEE 套到 grant review,而是把高風險 AI 評分流程裡最常被忽略的 execution evidence 補回來:當模型和 rubric 不能完全公開、結果又必須可申訴時,真正需要的不是更多信任口號,而是能證明它當時真的照宣稱方式執行的 attested bundle。

2026 年 4 月 29 日

AI Agents 安全論文閱讀分析:很多 agent 真正缺的,不是再多一條 prompt guardrail,而是把 delegation 和執法權拆乾淨

這篇 Security Considerations for Artificial Intelligence Agents 最有價值的,不是再列一份 agent threat list,而是把問題拉回 delegation 與 privilege control:當 agent 會自己拿資料、叫工具、跨服務做事,真正該治理的就不只是 prompt 有沒有髒,而是誰在替誰做決定、誰在替誰動手、最後哪一層真的有權說不。

2026 年 4 月 29 日