In-Context Learning

IICL 論文閱讀分析：很多安全對齊真正輸掉的，不是模型不知道危險，而是它太會把眼前的 pattern 補完

這篇論文真正重要的地方，不是又多一種 jailbreak 花招，而是指出 safety alignment 若主要還是行為偏好層，碰上更強的 few-shot pattern completion 時，就可能把控制權讓出去。

2026 年 4 月 22 日