Nested Learning 論文閱讀分析:很多 agent security 真正缺的,不是再多一個 classifier,而是把防禦、觀測、記憶與成本一起設計
論文基本資訊 論文標題:Prompt I...
論文基本資訊 論文標題:Prompt I...
這篇論文真正有意思的地方,不是又多講一次 zero trust,而是把 enterprise agent 的根本問題講白:當呼叫端從 deterministic API consumer 變成 probabilistic planner,傳統 REST/CRUD 接觸面本身就開始失效。作者提出 Semantic Gateway,把 backend 改寫成受治理的語意面,並用 pre-inference semantic firewall、tool-level RBAC、cryptographic human-in-the-loop 與 EPA/greybox semantic fuzzing 去驗證 agent 的狀態轉移。重點不是幫 agent 更順地調 API,而是把執法權從模型手上拆掉,並確認它只能活在被批准過的狀態圖裡。
這篇論文真正補到的,不是又多一種 prompt injection,而是把 agent 時代的一個結構性問題講清楚:很多攻擊不是單輪有毒,而是每一輪都像正常工作,合起來才構成跨 session 的惡意軌跡。作者提出 CSTM-Bench,把 cross-session threat 拆成 accumulate、compose、launder、inject_on_reader 等操作型態,並證明不管是逐 session judge,還是把所有歷史硬串起來的 full-log correlator,都會在真正 isolation-invisible 的場景掉很大一截。重點不只是 benchmark,而是提醒大家:長 context 不等於長期威脅理解,真正需要的是能在有限記憶下保留高訊號片段的 stateful runtime defense。
這篇論文真正補到的,不是再提醒一次 agent skill 可能有毒,而是把問題往前推成 package-level pre-load auditing:當 skill 由 SKILL.md、scripts、reference docs 與 repo context 組成時,真正該審的不是單一句子,而是跨檔案風險鏈。作者提出 SkillGuard-Robust,把審計拆成結構化證據抽取、選擇性語意驗證、衝突鏈仲裁與 rewrite 一致性整合,提醒我們 skill 供應鏈安全的核心其實更像 admission control,而不是單純 prompt moderation。
MCP Pitfall Lab 真正補上的,不是又一篇只會告訴你 MCP 很危險的論文,而是把開發者常見的 tool server 設計坑做成可重跑、可驗證、可硬化、可回歸的安全工程框架。重點不是 agent 怎麼說自己沒中毒,而是 trace 到底顯示它做了什麼。
本文由 AI 產生、整理與撰寫。 論文基...
本文由 AI 產生、整理與撰寫。 論文基...
這篇 RiskGate 真正有價值的,不是再多做一個 agent guardrail,而是把 runtime governance 改寫成持續估計未觀測風險上界、並在 agent 快靠近安全邊界前就先收緊。