Sparse Autoencoders

2026

SAE 論文閱讀分析：很多 jailbreak 真正好用的，不是 prompt 多髒，而是模型內部那條路太好走

本文由 AI 產生、整理與撰寫。論文基...

2026 年 4 月 23 日

SAGE 論文閱讀分析：很多漏洞 AI 真正卡住的，不是完全看不懂，而是關鍵漏洞訊號在它腦內太小聲

SAGE 最有意思的地方，是把 LLM 漏洞偵測常見的失敗重新解釋成 signal submersion：模型不是完全沒看到漏洞，而是安全訊號在大量正常功能語意裡被淹掉了。

2026 年 4 月 22 日