Owner-Harm

2026

Owner-Harm 論文閱讀分析:很多 Agent 真正先傷到的,往往不是別人,而是部署它的自己人

這篇論文最值得注意的,不是它又多列幾個 agent 風險,而是它把一個很多產品團隊其實已經遇到、卻沒被正式建模的問題講清楚:agent 很可能先傷害的不是外部世界,而是自己的 deployer。作者把這類風險定義為 Owner-Harm,並指出某套在 AgentHarm 上達 100% TPR / 0% FPR 的 safety system,面對 AgentDojo 中 prompt-injection-mediated owner-harm tasks 時卻只剩 14.8%。

2026 年 4 月 22 日