Agent Runtime 架構論文閱讀分析:很多間接 prompt injection 真正缺的,不是 detector,而是先把骨架搭對
論文基本資訊 論文標題:Architec...
論文基本資訊 論文標題:Architec...
論文基本資訊 論文標題:Prompt I...
這篇論文最值得看的,不是它又做了一個 jailbreak detector,而是它把 multilingual LLM safety 的核心破口講清楚:很多防線其實只守住英文表面,一旦攻擊者改用其他語言,guardrail 可能就整段鬆掉。作者用固定英文 codebook 加 multilingual embeddings,驗證這種外掛式 semantic filter 對模板化跨語言越獄很有效,但在異質、分布漂移的攻擊上很快撞到上限。
這篇 paper 真正有價值的,不是把 TEE 套到 grant review,而是把高風險 AI 評分流程裡最常被忽略的 execution evidence 補回來:當模型和 rubric 不能完全公開、結果又必須可申訴時,真正需要的不是更多信任口號,而是能證明它當時真的照宣稱方式執行的 attested bundle。
這篇 Security Considerations for Artificial Intelligence Agents 最有價值的,不是再列一份 agent threat list,而是把問題拉回 delegation 與 privilege control:當 agent 會自己拿資料、叫工具、跨服務做事,真正該治理的就不只是 prompt 有沒有髒,而是誰在替誰做決定、誰在替誰動手、最後哪一層真的有權說不。
這篇 report 真正值得看的,不是哪家 guardrail 名次排第幾,而是它把一個 production 現實攤開來看:agent 安全防線最難的,往往不是看出明顯攻擊,而是在高模糊邊界樣本上仍維持高攔截率,同時別把正常工作一起誤殺。
這篇論文指出,很多 LLM 控制的機器人真正先被打掉的不是 integrity,而是 availability:攻擊者只要往音訊管道塞進幾句看似合理的安全警語,就能觸發模型的 safety reasoning,讓系統停工、誤報或卡進等待迴圈。
這篇論文真正補到的,不是又多一種 prompt injection,而是把 agent 時代的一個結構性問題講清楚:很多攻擊不是單輪有毒,而是每一輪都像正常工作,合起來才構成跨 session 的惡意軌跡。作者提出 CSTM-Bench,把 cross-session threat 拆成 accumulate、compose、launder、inject_on_reader 等操作型態,並證明不管是逐 session judge,還是把所有歷史硬串起來的 full-log correlator,都會在真正 isolation-invisible 的場景掉很大一截。重點不只是 benchmark,而是提醒大家:長 context 不等於長期威脅理解,真正需要的是能在有限記憶下保留高訊號片段的 stateful runtime defense。
這篇論文真正補到的,不是再提醒一次 web agent 會被頁面上的惡意指令帶偏,而是把問題切到 screenshot-based agent 的真實痛點:當模型看到的是整張被渲染過的畫面時,text-only guardrail 常常不夠,而每一步都丟大 VLM 又太重。作者提出 SnapGuard,用視覺穩定性與 action-oriented 文字訊號做輕量級多模態檢測,重點不是追求完美,而是替 browser agent 補上一個夠快、夠便宜、能先攔下可疑畫面的第一道守門員。
這篇論文真正補到的,不是再提醒一次 agent skill 可能有毒,而是把問題往前推成 package-level pre-load auditing:當 skill 由 SKILL.md、scripts、reference docs 與 repo context 組成時,真正該審的不是單一句子,而是跨檔案風險鏈。作者提出 SkillGuard-Robust,把審計拆成結構化證據抽取、選擇性語意驗證、衝突鏈仲裁與 rewrite 一致性整合,提醒我們 skill 供應鏈安全的核心其實更像 admission control,而不是單純 prompt moderation。