Code LLM 洩密論文閱讀分析：你以為 API Key 看起來越亂越安全，模型卻可能因為 tokenizer 先把它切成好背的形狀

2026 年 4 月 21 日

本文由 AI 產生、整理與撰寫。

論文基本資訊

論文標題：Understanding Secret Leakage Risks in Code LLMs: A Tokenization Perspective
作者：Meifang Chen、Zhe Yang、Huang Nianchen、Yizhan Huang、Yichen Li、Zihan Li、Michael R. Lyu
年份：2026
來源：arXiv:2604.17814（Accepted by ACL 2026 Findings）
論文連結：https://arxiv.org/abs/2604.17814
DOI：10.48550/arXiv.2604.17814
主題：Code LLM、Secret Leakage、Tokenization Security、Memorization、AI Coding Assistant、Supply-side Risk

很多人談 code LLM 的 secret leakage，第一反應通常是「是不是訓練資料裡混進了 API key」、「是不是模型記憶力太強」、「是不是 prompt 太會套資料」。但這篇 Understanding Secret Leakage Risks in Code LLMs: A Tokenization Perspective 把刀切到一個更底層、也更少人盯的地方：秘密外洩風險，未必只是資料集或訓練問題，連 tokenizer 本身都可能在默默放大某些 secret 被模型記住的機率。

我覺得這篇最值得看，不是因為它又重複一次「模型會背答案」，而是它指出一個很反直覺的現象：某些看起來越亂、越像 gibberish 的 secret，從字元層看明明熵很高，但在 BPE tokenization 之後，反而可能變成低 token entropy 的序列，於是更容易被 code LLM 記住。作者把這個現象叫做 gibberish bias。

這篇論文想修正什麼盲點？

今天如果你在談 code assistant 風險，大部分防守直覺還停在這幾個層次：

不要把 secret commit 到公開 repo
訓練前先做 secret scanning / data cleansing
推理時加 prompt guard，避免直接吐出憑證
靠後處理規則擋住像 API key 的 pattern

這些都重要，但作者說得很清楚：如果模型是吃 token，不是吃字元，那我們只用 character-level entropy 去理解 secret 安全性，其實可能會看錯方向。

也就是說，對人類看起來亂七八糟、很難背的字串，對 tokenizer 來說不一定真的「難」。有些 secret 會被切成極不均勻、甚至偏低熵的 token 序列，這就可能讓 memorization 風險比想像中更高。這不是資料有沒有髒而已，而是資料進模型之前，被怎麼切也在改寫風險輪廓。

核心觀察：高字元熵，不等於高 token 熵

論文的核心轉折很漂亮。過去大家對 secret 的理解通常是：

secret 應該看起來隨機
越隨機越難猜
越高熵越不容易被壓縮或記憶

但這篇提醒你，上面那套多半是字元層的直覺，不是 token 層的事實。BPE tokenizer 會根據訓練語料裡常見的 byte pair / subword 合併規則，把字串切成不同長度的 token。結果就是：

有些一般程式碼會被切成多字元、相對穩定的 subword
有些 secret 則會被切成長短不一、分布非常不均的 token
某些看似亂碼的片段，甚至會剛好對應到 tokenizer 已學過的合併單位

於是秘密的「亂」，只是在字元層很亂；到了 token 層，不一定亂。 一旦 token 分布不均，token entropy 下降，memorization 風險就可能反而升高。

作者把這個風險命名為 gibberish bias，很傳神。因為從人的眼睛看，它像亂碼；但從 tokenizer 的眼睛看，它可能是一串其實很好切、很好壓、很好背的 token pattern。

為什麼這件事在 code LLM 特別危險？

這篇 paper 的背景不是抽象理論，而是很實際的 AI coding assistant 生態。像 Claude Code、Codex、Cursor 這類工具之所以敏感，是因為它們同時滿足幾個條件：

訓練資料高度依賴公開程式碼與開發文件
真實世界裡，開發者一直在 GitHub、npm、生產設定檔裡誤曝 secrets
模型又被部署在很貼近工程工作流的位置，能直接接觸 repo、log、config、terminal output

所以這篇論文真正補上的，是一個供應面視角：就算你已經知道「資料集中有 secret」是風險，真正決定哪些 secret 最容易被模型背起來的，可能還包括 tokenizer 的偏差。

換句話說，secret leakage 不是單純的 dataset contamination 問題，而比較像：

資料暴露提供原料
tokenizer決定哪些原料會被切成容易記的形狀
模型 memorization把這些形狀固定下來
推理介面再把它們在某些 prompt 下吐回來

這條鏈如果只盯模型、不盯 tokenizer，就像你只檢查資料庫權限，卻不看索引怎麼建的一樣，會漏掉一個很早就開始影響風險分布的環節。

作者怎麼證明這不是空想？

論文不是只丟一個概念名稱就收工。作者做了幾件很關鍵的事情：

指出 gibberish bias 和既有的 entropy-memorization 關係可以接起來看
用 DeepSeek Coder、Qwen2.5-Coder 等 code LLM tokenizer 去觀察 secret tokenization 行為
展示看似隨機的 secret substring，在 token 切分上其實有很不隨機的邊界
把偏差根源追到 BPE 對 train / test distribution shift 的敏感性

這裡最重要的不是某一組實驗數字，而是整個論證鏈很完整：character entropy 與 token entropy 不一致 → BPE 對 secret 的切分有偏 → 某些 secret 在 token 空間中更容易被模型記住 → 於是 leakage risk 並不平均，而是被 tokenizer 重新排序。

我特別在意作者提到的 distribution shift。因為一般程式碼語料與 secret 本來就不是同一種分布。BPE 的 merge 規則是從常見資料中長出來的，當它遇到格式固定、局部模式明顯、但整體又像亂碼的 secret 時，就可能切出非常奇怪的偏態結構。這個說法很有說服力，也比單純說「模型記住了 secret」細很多。

大 tokenizer 不一定比較安全，可能只是把問題放大

這篇另一個很值得記的是，它不是只分析現況，還順手打了現在模型圈一個常見幻想：更大的 vocabulary，不見得會自然減輕外洩風險。

直覺上，有人可能會以為 tokenizer 越大、切得越細緻，模型對亂碼越不容易形成可記憶模式。但作者的提醒剛好相反：如果 larger vocabulary 讓更多片段可以直接被當成既有 token 吃進去，那某些 secret 的 token-level 表徵反而可能更「舒服」，也更容易進入 memorization regime。

這件事很重要，因為它把 tokenizer 設計從單純效能優化，拉回安全設計問題。過去大家討論 tokenizer，常講的是：

壓縮率好不好
長 context 成本高不高
跨語言 / 跨程式語言泛化好不好

但從這篇開始，應該多加一題：這個 tokenizer 會不會系統性地讓某些敏感字串更容易被模型背起來？

對實務防守有什麼啟發？

我覺得這篇最有價值的地方，是它逼 defender 把 secret leakage 防線往前移。不是等模型輸出時再擋，而是從 tokenizer 與資料前處理階段就開始考慮風險。

幾個實務啟發很直接：

不要只做字元層 secret scanning。 對高風險格式，可以額外檢查 tokenization 後的表示特徵，找出 token-level entropy 異常低的 secret 類型。
資料清洗應分級。 不是所有 secret 曝露樣本風險相同，某些更符合 gibberish bias 的字串，應優先移除或做更強 masking。
模型評測要補 tokenizer-aware leakage benchmarks。 如果 benchmark 只測 prompt elicitation，而不測 tokenization bias，就很可能低估實際風險。
企業導入 code assistant 時，應把 secret rotation 與 egress monitoring 當預設，不是補丁。 因為即使 secret 沒在你現在的 repo 裡，也可能來自模型曾看過的外部資料。

更狠一點講，這篇其實是在提醒大家：secret leakage 不是單一 feature bug，而是模型供應鏈裡從 tokenizer、training corpus、推理介面到開發者工作流共同組成的結構性風險。

我的看法：這篇把「模型背資料」從結果，往前推回原因

很多 secret leakage 研究停在「模型能不能被 prompt 出來」。這當然重要，但比較像在量結果。這篇比較稀有的地方，是它往前追問：為什麼偏偏是某些 secret 比別的 secret 更容易被記住？

這個問題一旦成立，安全討論就會從「怎麼減少背誦」升級成「系統怎麼在前端製造了更容易被背誦的表示」。而那個前端，不只是資料集，還包括 tokenizer。

如果你在做 AI coding assistant 安全、secure SDLC、模型供應鏈治理，這篇很值得放進閱讀清單。因為它提醒了一件很現實的事：你以為自己在管理模型風險，實際上你可能連模型看世界的切分方式，都還沒有納入威脅模型。

總結

Understanding Secret Leakage Risks in Code LLMs: A Tokenization Perspective 最關鍵的貢獻，不是再一次說明 code LLM 會洩漏 secrets，而是指出BPE tokenization 可能對 secret 形成 gibberish bias，讓某些字元層看起來高熵、像亂碼的憑證，在 token 層反而更容易被記住。

這個洞見把 secret leakage 問題從資料汙染與 prompt elicitation，往前延伸到 tokenizer design 與表示學習本身。對今天越來越深度嵌入開發流程的 AI coding assistant 來說，這不是學術上的小修正，而是很可能影響真實外洩機率排序的一層基礎設施風險。

一句話總結這篇：真正危險的，不只是模型看過 secret，而是 tokenizer 可能先把某些 secret 切成了特別容易被模型記住的形狀。

Code LLM 洩密論文閱讀分析：你以為 API Key 看起來越亂越安全，模型卻可能因為 tokenizer 先把它切成好背的形狀

論文基本資訊

這篇論文想修正什麼盲點？

核心觀察：高字元熵，不等於高 token 熵

為什麼這件事在 code LLM 特別危險？

作者怎麼證明這不是空想？

大 tokenizer 不一定比較安全，可能只是把問題放大

對實務防守有什麼啟發？

我的看法：這篇把「模型背資料」從結果，往前推回原因

總結

發佈留言取消回覆

You may also like

近期文章

廣告

文章分類

近期留言

論文基本資訊

這篇論文想修正什麼盲點？

核心觀察：高字元熵，不等於高 token 熵

為什麼這件事在 code LLM 特別危險？

作者怎麼證明這不是空想？

大 tokenizer 不一定比較安全，可能只是把問題放大

對實務防守有什麼啟發？

我的看法：這篇把「模型背資料」從結果，往前推回原因

總結

發佈留言 取消回覆

You may also like

Operationalising Cyber Risk Management 論文閱讀分析：當 ATT&CK 自動化真正要落地，後面就不能再斷在 technique label

CBCL 論文閱讀分析：當 Agent 開始彼此教對方怎麼說話，真正該先守住的可能是整個通訊語言的複雜度邊界

近期文章

廣告

文章分類

近期留言

發佈留言取消回覆