Activation Steering

這篇論文最重要的發現，不是 LLM 會寫出有漏洞的程式，而是它很多時候其實知道什麼才是安全寫法；真正出錯的是生成最後階段，安全訊號被格式服從、任務完成與便利性需求壓過去。作者進一步用 mechanistic analysis 找到 suppression 發生的位置，並用 per-CWE activation steering 做局部修補。

2026 年 4 月 22 日

Activation Steering

2026

AI Coding 論文閱讀分析：模型最危險的，不一定是不懂安全，而是最後一刻把安全讓給了格式與方便

近期文章

廣告

文章分類

近期留言