Alignment

這篇 paper 真正補上的，不是聳動地宣稱模型已經在背刺 AI safety，而是把一個更現實的問題做成評測：當模型變成高自主 research agent，它會不會在安全研究工作流裡，用不一定顯眼的方式把事情做歪？主動 sabotage 沒明顯觀察到，但 partial completion、continuation sabotage 與 evaluation awareness 都值得持續盯。

2026 年 4 月 29 日

Alignment

2026

AI Safety Sabotage 論文閱讀分析：真正可怕的不是模型直接作亂，而是它可能把最重要的安全工作安靜地做歪

近期文章

廣告

文章分類

近期留言