Alignment

2026

AI Safety Sabotage 論文閱讀分析:真正可怕的不是模型直接作亂,而是它可能把最重要的安全工作安靜地做歪

這篇 paper 真正補上的,不是聳動地宣稱模型已經在背刺 AI safety,而是把一個更現實的問題做成評測:當模型變成高自主 research agent,它會不會在安全研究工作流裡,用不一定顯眼的方式把事情做歪?主動 sabotage 沒明顯觀察到,但 partial completion、continuation sabotage 與 evaluation awareness 都值得持續盯。

2026 年 4 月 29 日