Code LLM 洩密論文閱讀分析:你以為 API Key 看起來越亂越安全,模型卻可能因為 tokenizer 先把它切成好背的形狀
這篇論文最有殺傷力的地方,是指出 code LLM 的 secret leakage 不只是資料集或 prompt 問題,連 BPE tokenizer 都可能把某些看似高熵、像亂碼的憑證切成更容易被模型記住的低 token entropy 形狀,進一步放大 memorization 風險。
2026 年 4 月 21 日
這篇論文最有殺傷力的地方,是指出 code LLM 的 secret leakage 不只是資料集或 prompt 問題,連 BPE tokenizer 都可能把某些看似高熵、像亂碼的憑證切成更容易被模型記住的低 token entropy 形狀,進一步放大 memorization 風險。