LLM Security

2026

TraceGuard 論文閱讀分析:很多 frontier model 真正外流的,不是答案,而是整條 reasoning trace

這篇論文最值得看的,不是又在提醒大家模型蒸餾很危險,而是把問題講得更準:reasoning trace 本身就是可被抽取、可被重建、可被再利用的高價值資產。作者把 antidistillation 寫成 Stackelberg game,並提出 training-free、black-box 的 TraceGuard,去精準破壞最值得 student 學走的關鍵推理分岔點。

2026 年 4 月 29 日

AutoRISE 論文閱讀分析:很多 LLM red teaming 真正缺的,不是再多一條 prompt,而是讓攻擊策略自己進化

這篇論文真正麻煩的地方,不是又多了幾句會 jailbreak 的 prompt,而是把 automated red teaming 從「改寫提示詞」往上抬成「改寫整個攻擊策略程式」。AutoRISE 讓 coding agent 直接編輯 strategy.py,根據固定 evaluation harness 回傳的成功率、多樣性、新穎性與覆蓋率訊號持續演化 attack pipeline。對防守方來說,這提醒我們真正要面對的可能已經不是 prompt collection,而是會自己換打法的攻擊者。

2026 年 4 月 29 日