HarmChip 論文閱讀分析:真正危險的,不是模型明著教你做壞事,而是它把惡意需求當成正常晶片工程建議
這篇論文最值得看的,不是又多了一個 jailbreak benchmark,而是它直接指出:當 LLM 進入晶片設計與 EDA 工作流,很多通用 safety guard 並不是真的懂風險,而只是對明顯危險字眼敏感;一旦惡意意圖穿上正常工程語言外衣,模型就可能在錯殺合法研究的同時,反而配合更危險的要求。
2026 年 4 月 22 日
這篇論文最值得看的,不是又多了一個 jailbreak benchmark,而是它直接指出:當 LLM 進入晶片設計與 EDA 工作流,很多通用 safety guard 並不是真的懂風險,而只是對明顯危險字眼敏感;一旦惡意意圖穿上正常工程語言外衣,模型就可能在錯殺合法研究的同時,反而配合更危險的要求。
這篇論文最值得記住的重點是:在硬體 IP obfuscation 這種高風險安全設計問題裡,agent 能把 planning、lock-plan generation、deterministic compilation、functional verification 與 SAT-based evaluation 串成工作流,確實開始有用了;但只要 SAT solver 仍能全面恢復正確 key,這種「會生成安全機制」和「真的生成了安全性」就還是兩回事。