Causal Attribution

本文由 AI 產生、整理與撰寫。論文基...

2026 年 4 月 18 日

AttriGuard 論文閱讀分析：真正該防的，也許從來不是那段髒資料「像不像指令」，而是它到底有沒有開始接管 Agent 下一步

AttriGuard 最重要的洞見是：間接提示注入不該只當成文字分類問題，而該當成行動歸因問題。真正要驗的不是外部內容哪句話最像惡意 prompt，而是某個 tool call 到底是不是仍由使用者意圖支撐；如果把 observation 的控制力削弱後，這個 call 就活不下來，那它就很可能已經被外部內容接管。

2026 年 4 月 17 日

Causal Attribution

2026

AgentWatcher 論文閱讀分析：真正該被檢查的，也許不是整份長上下文，而是那幾段已經開始接管 Agent 下一步的內容

AttriGuard 論文閱讀分析：真正該防的，也許從來不是那段髒資料「像不像指令」，而是它到底有沒有開始接管 Agent 下一步

近期文章

廣告

文章分類

近期留言