2026

跨語言 Jailbreak 論文閱讀分析:很多 multilingual guardrail 真正缺的,不是翻譯規則,而是守住 harmful intent 本身

這篇論文最值得看的,不是它又做了一個 jailbreak detector,而是它把 multilingual LLM safety 的核心破口講清楚:很多防線其實只守住英文表面,一旦攻擊者改用其他語言,guardrail 可能就整段鬆掉。作者用固定英文 codebook 加 multilingual embeddings,驗證這種外掛式 semantic filter 對模板化跨語言越獄很有效,但在異質、分布漂移的攻擊上很快撞到上限。

2026 年 4 月 29 日

AI 補助審查論文閱讀分析:很多高風險評分流程真正缺的,不是再多一份原則,而是證明它當時真的這樣跑

這篇 paper 真正有價值的,不是把 TEE 套到 grant review,而是把高風險 AI 評分流程裡最常被忽略的 execution evidence 補回來:當模型和 rubric 不能完全公開、結果又必須可申訴時,真正需要的不是更多信任口號,而是能證明它當時真的照宣稱方式執行的 attested bundle。

2026 年 4 月 29 日

AI Agents 安全論文閱讀分析:很多 agent 真正缺的,不是再多一條 prompt guardrail,而是把 delegation 和執法權拆乾淨

這篇 Security Considerations for Artificial Intelligence Agents 最有價值的,不是再列一份 agent threat list,而是把問題拉回 delegation 與 privilege control:當 agent 會自己拿資料、叫工具、跨服務做事,真正該治理的就不只是 prompt 有沒有髒,而是誰在替誰做決定、誰在替誰動手、最後哪一層真的有權說不。

2026 年 4 月 29 日

跨廠 ICS 偵測論文閱讀分析:很多工業入侵偵測真正缺的,不是更會背自家正常,而是換一座廠還知道誰真的可疑

這篇論文真正有意思的地方,不是又做一次工控 domain adaptation,而是把跨廠部署的痛點講白:模型在 A 廠學到的,常常其實是 A 廠的日常,不是攻擊本身。作者提出 medoid prototype alignment,不直接硬對齊所有 source/target 樣本,而是先抽取比較穩的 operational prototypes,再做跨域對齊,以降低 noisy matching,提升未知攻擊偵測在跨場域條件下的穩定性。

2026 年 4 月 29 日