Prompt Injection

Paper Survey

Agent Runtime 架構論文閱讀分析：很多間接 prompt injection 真正缺的，不是 detector，而是先把骨架搭對

論文基本資訊論文標題：Architec...

2026 年 4 月 29 日

Paper Survey

Nested Learning 論文閱讀分析：很多 agent security 真正缺的，不是再多一個 classifier，而是把防禦、觀測、記憶與成本一起設計

論文基本資訊論文標題：Prompt I...

2026 年 4 月 29 日

Paper Survey

跨語言 Jailbreak 論文閱讀分析：很多 multilingual guardrail 真正缺的，不是翻譯規則，而是守住 harmful intent 本身

這篇論文最值得看的，不是它又做了一個 jailbreak detector，而是它把 multilingual LLM safety 的核心破口講清楚：很多防線其實只守住英文表面，一旦攻擊者改用其他語言，guardrail 可能就整段鬆掉。作者用固定英文 codebook 加 multilingual embeddings，驗證這種外掛式 semantic filter 對模板化跨語言越獄很有效，但在異質、分布漂移的攻擊上很快撞到上限。

2026 年 4 月 29 日

Paper Survey

AI 補助審查論文閱讀分析：很多高風險評分流程真正缺的，不是再多一份原則，而是證明它當時真的這樣跑

這篇 paper 真正有價值的，不是把 TEE 套到 grant review，而是把高風險 AI 評分流程裡最常被忽略的 execution evidence 補回來：當模型和 rubric 不能完全公開、結果又必須可申訴時，真正需要的不是更多信任口號，而是能證明它當時真的照宣稱方式執行的 attested bundle。

2026 年 4 月 29 日

Paper Survey

AI Agents 安全論文閱讀分析：很多 agent 真正缺的，不是再多一條 prompt guardrail，而是把 delegation 和執法權拆乾淨

這篇 Security Considerations for Artificial Intelligence Agents 最有價值的，不是再列一份 agent threat list，而是把問題拉回 delegation 與 privilege control：當 agent 會自己拿資料、叫工具、跨服務做事，真正該治理的就不只是 prompt 有沒有髒，而是誰在替誰做決定、誰在替誰動手、最後哪一層真的有權說不。

2026 年 4 月 29 日

Paper Survey

AI Agent Guardrails 論文閱讀分析：很多防線真正缺的，不是更會喊危險，而是別把正常工作一起掐死

這篇 report 真正值得看的，不是哪家 guardrail 名次排第幾，而是它把一個 production 現實攤開來看：agent 安全防線最難的，往往不是看出明顯攻擊，而是在高模糊邊界樣本上仍維持高攔截率，同時別把正常工作一起誤殺。

2026 年 4 月 29 日

Paper Survey

Semantic DoS 論文閱讀分析：很多 LLM robot 真正先被打掉的，不是 integrity，而是被安全語言嚇到停工

這篇論文指出，很多 LLM 控制的機器人真正先被打掉的不是 integrity，而是 availability：攻擊者只要往音訊管道塞進幾句看似合理的安全警語，就能觸發模型的 safety reasoning，讓系統停工、誤報或卡進等待迴圈。

2026 年 4 月 29 日

Paper Survey

Cross-Session Threats 論文閱讀分析：很多 agent 真正缺的，不是更大的 context，而是別把碎片當安全

這篇論文真正補到的，不是又多一種 prompt injection，而是把 agent 時代的一個結構性問題講清楚：很多攻擊不是單輪有毒，而是每一輪都像正常工作，合起來才構成跨 session 的惡意軌跡。作者提出 CSTM-Bench，把 cross-session threat 拆成 accumulate、compose、launder、inject_on_reader 等操作型態，並證明不管是逐 session judge，還是把所有歷史硬串起來的 full-log correlator，都會在真正 isolation-invisible 的場景掉很大一截。重點不只是 benchmark，而是提醒大家：長 context 不等於長期威脅理解，真正需要的是能在有限記憶下保留高訊號片段的 stateful runtime defense。

2026 年 4 月 29 日

Paper Survey

SnapGuard 論文閱讀分析：很多 screenshot-based web agent 真正缺的，不是更大的模型，而是先有夠快的第一道守門員

這篇論文真正補到的，不是再提醒一次 web agent 會被頁面上的惡意指令帶偏，而是把問題切到 screenshot-based agent 的真實痛點：當模型看到的是整張被渲染過的畫面時，text-only guardrail 常常不夠，而每一步都丟大 VLM 又太重。作者提出 SnapGuard，用視覺穩定性與 action-oriented 文字訊號做輕量級多模態檢測，重點不是追求完美，而是替 browser agent 補上一個夠快、夠便宜、能先攔下可疑畫面的第一道守門員。

2026 年 4 月 29 日

Paper Survey

SkillGuard-Robust 論文閱讀分析：很多 agent skill 真正缺的，不是再多一個 prompt filter，而是載入前先把整個 package 審清楚

這篇論文真正補到的，不是再提醒一次 agent skill 可能有毒，而是把問題往前推成 package-level pre-load auditing：當 skill 由 SKILL.md、scripts、reference docs 與 repo context 組成時，真正該審的不是單一句子，而是跨檔案風險鏈。作者提出 SkillGuard-Robust，把審計拆成結構化證據抽取、選擇性語意驗證、衝突鏈仲裁與 rewrite 一致性整合，提醒我們 skill 供應鏈安全的核心其實更像 admission control，而不是單純 prompt moderation。

2026 年 4 月 29 日

2026

Agent Runtime 架構論文閱讀分析：很多間接 prompt injection 真正缺的，不是 detector，而是先把骨架搭對

Nested Learning 論文閱讀分析：很多 agent security 真正缺的，不是再多一個 classifier，而是把防禦、觀測、記憶與成本一起設計

跨語言 Jailbreak 論文閱讀分析：很多 multilingual guardrail 真正缺的，不是翻譯規則，而是守住 harmful intent 本身

AI 補助審查論文閱讀分析：很多高風險評分流程真正缺的，不是再多一份原則，而是證明它當時真的這樣跑

AI Agents 安全論文閱讀分析：很多 agent 真正缺的，不是再多一條 prompt guardrail，而是把 delegation 和執法權拆乾淨

AI Agent Guardrails 論文閱讀分析：很多防線真正缺的，不是更會喊危險，而是別把正常工作一起掐死

Semantic DoS 論文閱讀分析：很多 LLM robot 真正先被打掉的，不是 integrity，而是被安全語言嚇到停工

Cross-Session Threats 論文閱讀分析：很多 agent 真正缺的，不是更大的 context，而是別把碎片當安全

SnapGuard 論文閱讀分析：很多 screenshot-based web agent 真正缺的，不是更大的模型，而是先有夠快的第一道守門員

SkillGuard-Robust 論文閱讀分析：很多 agent skill 真正缺的，不是再多一個 prompt filter，而是載入前先把整個 package 審清楚

近期文章

廣告

文章分類

近期留言