Owner-Harm

這篇論文最值得注意的，不是它又多列幾個 agent 風險，而是它把一個很多產品團隊其實已經遇到、卻沒被正式建模的問題講清楚：agent 很可能先傷害的不是外部世界，而是自己的 deployer。作者把這類風險定義為 Owner-Harm，並指出某套在 AgentHarm 上達 100% TPR / 0% FPR 的 safety system，面對 AgentDojo 中 prompt-injection-mediated owner-harm tasks 時卻只剩 14.8%。

2026 年 4 月 22 日

Owner-Harm

2026

Owner-Harm 論文閱讀分析：很多 Agent 真正先傷到的，往往不是別人，而是部署它的自己人

近期文章

廣告

文章分類

近期留言