Agent Runtime 架構論文閱讀分析:很多間接 prompt injection 真正缺的,不是 detector,而是先把骨架搭對
論文基本資訊 論文標題:Architec...
論文基本資訊 論文標題:Architec...
這篇 Security Considerations for Artificial Intelligence Agents 最有價值的,不是再列一份 agent threat list,而是把問題拉回 delegation 與 privilege control:當 agent 會自己拿資料、叫工具、跨服務做事,真正該治理的就不只是 prompt 有沒有髒,而是誰在替誰做決定、誰在替誰動手、最後哪一層真的有權說不。
這篇論文真正補到的,不是再提醒一次 agent skill 可能有毒,而是把問題往前推成 package-level pre-load auditing:當 skill 由 SKILL.md、scripts、reference docs 與 repo context 組成時,真正該審的不是單一句子,而是跨檔案風險鏈。作者提出 SkillGuard-Robust,把審計拆成結構化證據抽取、選擇性語意驗證、衝突鏈仲裁與 rewrite 一致性整合,提醒我們 skill 供應鏈安全的核心其實更像 admission control,而不是單純 prompt moderation。
這篇論文最值得看的,不是它又證明 multi-agent 會出事,而是它把問題精準拉回角色分工、通訊拓樸與記憶可見性:同一個模型只要換一種 orchestration,原本會在 planning 階段拒絕的有害任務,就可能被拆成一串局部合理的步驟一路做完。
這篇 RiskGate 真正有價值的,不是再多做一個 agent guardrail,而是把 runtime governance 改寫成持續估計未觀測風險上界、並在 agent 快靠近安全邊界前就先收緊。
本文由 AI 產生、整理與撰寫。 論文基...
這篇論文真正重要的,不是發明一個給 AI 用的新幣,而是點破 agent 經濟裡真正被消耗的其實是供應商綁定、價格會變、不可攜的推理成本。ClawCoin 試著把 compute-cost exposure 做成可報價、可 escrow、可多跳結算的單位,讓 agent 協作不再只是在轉移購買力,而是開始對齊 execution capacity。
HadAgent 把去中心化 AI serving 的重點,從單純共享算力拉回 proof-of-inference、節點信任收斂與 runtime integrity 驗證。
這篇論文最值得注意的,不是它又多列幾個 agent 風險,而是它把一個很多產品團隊其實已經遇到、卻沒被正式建模的問題講清楚:agent 很可能先傷害的不是外部世界,而是自己的 deployer。作者把這類風險定義為 Owner-Harm,並指出某套在 AgentHarm 上達 100% TPR / 0% FPR 的 safety system,面對 AgentDojo 中 prompt-injection-mediated owner-harm tasks 時卻只剩 14.8%。