Secret Leakage

這篇論文最有殺傷力的地方，是指出 code LLM 的 secret leakage 不只是資料集或 prompt 問題，連 BPE tokenizer 都可能把某些看似高熵、像亂碼的憑證切成更容易被模型記住的低 token entropy 形狀，進一步放大 memorization 風險。

2026 年 4 月 21 日

Code LLM 洩密論文閱讀分析：你以為 API Key 看起來越亂越安全，模型卻可能因為 tokenizer 先把它切成好背的形狀