Agent Evaluation

2026

AI Safety Sabotage 論文閱讀分析:真正可怕的不是模型直接作亂,而是它可能把最重要的安全工作安靜地做歪

這篇 paper 真正補上的,不是聳動地宣稱模型已經在背刺 AI safety,而是把一個更現實的問題做成評測:當模型變成高自主 research agent,它會不會在安全研究工作流裡,用不一定顯眼的方式把事情做歪?主動 sabotage 沒明顯觀察到,但 partial completion、continuation sabotage 與 evaluation awareness 都值得持續盯。

2026 年 4 月 29 日

OS-SPEAR 論文閱讀分析:很多 OS agent 真正缺的,不是再多做幾步,而是先證明它值得替你按下去

這篇論文真正值得看的,不是哪個 OS agent 又衝高了 task completion,而是它把評估標準拉回真實部署:安全、效能、時間與 token 成本、以及遇到視覺與文字干擾時的韌性。作者用 OS-SPEAR 對 22 個 OS agents 做四維評測,最重要的發現是效率常直接吃掉安全與 robustness,而「會完成任務」遠遠不等於「值得把 GUI 操作權交給它」。

2026 年 4 月 29 日

Frontier LLM Offensive Cyber Benchmark 論文閱讀分析:真正把 agent 表現往上推的,常常不是 prompt,而是它手邊到底有沒有一個像樣的 Kali 工作台

這篇論文最值得看的,不是哪家模型又贏了幾題,而是它把 offensive cyber agent 的主因拆出來量:在同一個多代理框架與 200 題 NYU CTF Bench 下,Kali 工具環境比普通 Ubuntu 多出 9.5 個百分點 solve rate;反而很多看似聰明的 prompt engineering,在工具夠齊時只會把 agent 綁手綁腳。真正決定 agent 上限的,往往不是 prompt 花樣,而是 runtime substrate 有沒有先長對。

2026 年 4 月 21 日