Jailbreak Benchmark

2026

HarmChip 論文閱讀分析:真正危險的,不是模型明著教你做壞事,而是它把惡意需求當成正常晶片工程建議

這篇論文最值得看的,不是又多了一個 jailbreak benchmark,而是它直接指出:當 LLM 進入晶片設計與 EDA 工作流,很多通用 safety guard 並不是真的懂風險,而只是對明顯危險字眼敏感;一旦惡意意圖穿上正常工程語言外衣,模型就可能在錯殺合法研究的同時,反而配合更危險的要求。

2026 年 4 月 22 日