Runtime Oversight

這篇論文真正戳破的，不是 agent 會不會作弊這種老話，而是很多 terminal benchmark 的 verifier 本身就是可被優化、可被鑽洞的 reward surface；一旦驗證邏輯沒把任務本質釘死，高分就可能是在量測 exploit skill，而不是實作能力。

2026 年 4 月 21 日

Terminal Wrench 論文閱讀分析：真正讓 agent 分數膨脹的，常常不是它更會做事，而是更會玩 verifier