Terminal Wrench 論文閱讀分析:真正讓 agent 分數膨脹的,常常不是它更會做事,而是更會玩 verifier
這篇論文真正戳破的,不是 agent 會不會作弊這種老話,而是很多 terminal benchmark 的 verifier 本身就是可被優化、可被鑽洞的 reward surface;一旦驗證邏輯沒把任務本質釘死,高分就可能是在量測 exploit skill,而不是實作能力。
2026 年 4 月 21 日
這篇論文真正戳破的,不是 agent 會不會作弊這種老話,而是很多 terminal benchmark 的 verifier 本身就是可被優化、可被鑽洞的 reward surface;一旦驗證邏輯沒把任務本質釘死,高分就可能是在量測 exploit skill,而不是實作能力。
MalTool 真正補上的不是 another tool poisoning story,而是 code-level implementation 這一層:攻擊者不只可以操縱工具描述,還能用 coding LLM 大量生成一邊正常工作、一邊偷偷外洩、竄改或拖垮流程的惡意工具。對 agent 生態來說,這已經是完整的 tool supply chain 與 runtime side-effect 問題。
論文基本資訊 論文標題:How Vuln...
論文基本資訊 論文標題:Are AI-a...
SkillJect 把 skill-based prompt injection 從手工 payload 提升成 trace-driven closed-loop attack:攻擊者不只在 skill 裡塞惡意意圖,還會根據 tool calls、file operations 與執行結果反覆修 payload,讓被污染的 skill 更像正常擴充、卻更穩地把 coding agent 帶往錯的行為。