AI Coding 論文閱讀分析:模型最危險的,不一定是不懂安全,而是最後一刻把安全讓給了格式與方便
這篇論文最重要的發現,不是 LLM 會寫出有漏洞的程式,而是它很多時候其實知道什麼才是安全寫法;真正出錯的是生成最後階段,安全訊號被格式服從、任務完成與便利性需求壓過去。作者進一步用 mechanistic analysis 找到 suppression 發生的位置,並用 per-CWE activation steering 做局部修補。
2026 年 4 月 22 日
這篇論文最重要的發現,不是 LLM 會寫出有漏洞的程式,而是它很多時候其實知道什麼才是安全寫法;真正出錯的是生成最後階段,安全訊號被格式服從、任務完成與便利性需求壓過去。作者進一步用 mechanistic analysis 找到 suppression 發生的位置,並用 per-CWE activation steering 做局部修補。