GUI Automation

2026

OS-SPEAR 論文閱讀分析:很多 OS agent 真正缺的,不是再多做幾步,而是先證明它值得替你按下去

這篇論文真正值得看的,不是哪個 OS agent 又衝高了 task completion,而是它把評估標準拉回真實部署:安全、效能、時間與 token 成本、以及遇到視覺與文字干擾時的韌性。作者用 OS-SPEAR 對 22 個 OS agents 做四維評測,最重要的發現是效率常直接吃掉安全與 robustness,而「會完成任務」遠遠不等於「值得把 GUI 操作權交給它」。

2026 年 4 月 29 日