Prompt Injection

2026

跨語言 Jailbreak 論文閱讀分析:很多 multilingual guardrail 真正缺的,不是翻譯規則,而是守住 harmful intent 本身

這篇論文最值得看的,不是它又做了一個 jailbreak detector,而是它把 multilingual LLM safety 的核心破口講清楚:很多防線其實只守住英文表面,一旦攻擊者改用其他語言,guardrail 可能就整段鬆掉。作者用固定英文 codebook 加 multilingual embeddings,驗證這種外掛式 semantic filter 對模板化跨語言越獄很有效,但在異質、分布漂移的攻擊上很快撞到上限。

2026 年 4 月 29 日

AI 補助審查論文閱讀分析:很多高風險評分流程真正缺的,不是再多一份原則,而是證明它當時真的這樣跑

這篇 paper 真正有價值的,不是把 TEE 套到 grant review,而是把高風險 AI 評分流程裡最常被忽略的 execution evidence 補回來:當模型和 rubric 不能完全公開、結果又必須可申訴時,真正需要的不是更多信任口號,而是能證明它當時真的照宣稱方式執行的 attested bundle。

2026 年 4 月 29 日

AI Agents 安全論文閱讀分析:很多 agent 真正缺的,不是再多一條 prompt guardrail,而是把 delegation 和執法權拆乾淨

這篇 Security Considerations for Artificial Intelligence Agents 最有價值的,不是再列一份 agent threat list,而是把問題拉回 delegation 與 privilege control:當 agent 會自己拿資料、叫工具、跨服務做事,真正該治理的就不只是 prompt 有沒有髒,而是誰在替誰做決定、誰在替誰動手、最後哪一層真的有權說不。

2026 年 4 月 29 日

Cross-Session Threats 論文閱讀分析:很多 agent 真正缺的,不是更大的 context,而是別把碎片當安全

這篇論文真正補到的,不是又多一種 prompt injection,而是把 agent 時代的一個結構性問題講清楚:很多攻擊不是單輪有毒,而是每一輪都像正常工作,合起來才構成跨 session 的惡意軌跡。作者提出 CSTM-Bench,把 cross-session threat 拆成 accumulate、compose、launder、inject_on_reader 等操作型態,並證明不管是逐 session judge,還是把所有歷史硬串起來的 full-log correlator,都會在真正 isolation-invisible 的場景掉很大一截。重點不只是 benchmark,而是提醒大家:長 context 不等於長期威脅理解,真正需要的是能在有限記憶下保留高訊號片段的 stateful runtime defense。

2026 年 4 月 29 日

SnapGuard 論文閱讀分析:很多 screenshot-based web agent 真正缺的,不是更大的模型,而是先有夠快的第一道守門員

這篇論文真正補到的,不是再提醒一次 web agent 會被頁面上的惡意指令帶偏,而是把問題切到 screenshot-based agent 的真實痛點:當模型看到的是整張被渲染過的畫面時,text-only guardrail 常常不夠,而每一步都丟大 VLM 又太重。作者提出 SnapGuard,用視覺穩定性與 action-oriented 文字訊號做輕量級多模態檢測,重點不是追求完美,而是替 browser agent 補上一個夠快、夠便宜、能先攔下可疑畫面的第一道守門員。

2026 年 4 月 29 日

SkillGuard-Robust 論文閱讀分析:很多 agent skill 真正缺的,不是再多一個 prompt filter,而是載入前先把整個 package 審清楚

這篇論文真正補到的,不是再提醒一次 agent skill 可能有毒,而是把問題往前推成 package-level pre-load auditing:當 skill 由 SKILL.md、scripts、reference docs 與 repo context 組成時,真正該審的不是單一句子,而是跨檔案風險鏈。作者提出 SkillGuard-Robust,把審計拆成結構化證據抽取、選擇性語意驗證、衝突鏈仲裁與 rewrite 一致性整合,提醒我們 skill 供應鏈安全的核心其實更像 admission control,而不是單純 prompt moderation。

2026 年 4 月 29 日