LLM Safety

AI Coding 論文閱讀分析：模型最危險的，不一定是不懂安全，而是最後一刻把安全讓給了格式與方便

這篇論文最重要的發現，不是 LLM 會寫出有漏洞的程式，而是它很多時候其實知道什麼才是安全寫法；真正出錯的是生成最後階段，安全訊號被格式服從、任務完成與便利性需求壓過去。作者進一步用 mechanistic analysis 找到 suppression 發生的位置，並用 per-CWE activation steering 做局部修補。

2026 年 4 月 22 日

Paper Survey

HarmChip 論文閱讀分析：真正危險的，不是模型明著教你做壞事，而是它把惡意需求當成正常晶片工程建議

這篇論文最值得看的，不是又多了一個 jailbreak benchmark，而是它直接指出：當 LLM 進入晶片設計與 EDA 工作流，很多通用 safety guard 並不是真的懂風險，而只是對明顯危險字眼敏感；一旦惡意意圖穿上正常工程語言外衣，模型就可能在錯殺合法研究的同時，反而配合更危險的要求。

2026 年 4 月 22 日

Paper Survey

SIREN 論文閱讀分析：很多 LLM 安全真正缺的，不是再多一個 guard，而是更早讀到模型腦內已經亮起來的紅燈

這篇論文最值得看的，不是又做出一個新的 guard model，而是把 harmfulness detection 往模型內部表示前移：用更少參數、更低延遲，提早讀出安全相關訊號，讓即時串流與執行期攔截更有機會真的落地。

2026 年 4 月 22 日

Paper Survey

Harmful Intent 偵測論文閱讀分析：真正難抓的，不是最刺眼的危險詞，而是那些合起來才開始危險的訊號

這篇論文真正補到的，不只是 harmful intent probe 的分數，而是很多即時安全監測一直在用錯的感測邏輯：真正危險的意圖，常常不是靠某一個高分 token 暴露，而是靠一整段彼此呼應的證據慢慢收斂出來。

2026 年 4 月 21 日

2026

AI Coding 論文閱讀分析：模型最危險的，不一定是不懂安全，而是最後一刻把安全讓給了格式與方便

HarmChip 論文閱讀分析：真正危險的，不是模型明著教你做壞事，而是它把惡意需求當成正常晶片工程建議

SIREN 論文閱讀分析：很多 LLM 安全真正缺的，不是再多一個 guard，而是更早讀到模型腦內已經亮起來的紅燈

Harmful Intent 偵測論文閱讀分析：真正難抓的，不是最刺眼的危險詞，而是那些合起來才開始危險的訊號

近期文章

廣告

文章分類

近期留言