AI Coding 論文閱讀分析:模型最危險的,不一定是不懂安全,而是最後一刻把安全讓給了格式與方便
這篇論文最重要的發現,不是 LLM 會寫出有漏洞的程式,而是它很多時候其實知道什麼才是安全寫法;真正出錯的是生成最後階段,安全訊號被格式服從、任務完成與便利性需求壓過去。作者進一步用 mechanistic analysis 找到 suppression 發生的位置,並用 per-CWE activation steering 做局部修補。
2026 年 4 月 22 日
這篇論文最重要的發現,不是 LLM 會寫出有漏洞的程式,而是它很多時候其實知道什麼才是安全寫法;真正出錯的是生成最後階段,安全訊號被格式服從、任務完成與便利性需求壓過去。作者進一步用 mechanistic analysis 找到 suppression 發生的位置,並用 per-CWE activation steering 做局部修補。
這篇論文最值得看的,不是又多了一個 jailbreak benchmark,而是它直接指出:當 LLM 進入晶片設計與 EDA 工作流,很多通用 safety guard 並不是真的懂風險,而只是對明顯危險字眼敏感;一旦惡意意圖穿上正常工程語言外衣,模型就可能在錯殺合法研究的同時,反而配合更危險的要求。
這篇論文最值得看的,不是又做出一個新的 guard model,而是把 harmfulness detection 往模型內部表示前移:用更少參數、更低延遲,提早讀出安全相關訊號,讓即時串流與執行期攔截更有機會真的落地。
這篇論文真正補到的,不只是 harmful intent probe 的分數,而是很多即時安全監測一直在用錯的感測邏輯:真正危險的意圖,常常不是靠某一個高分 token 暴露,而是靠一整段彼此呼應的證據慢慢收斂出來。