R-CoT 論文閱讀分析：很多模型 ownership verification 真正缺的，不是輸出浮水印，而是讓 watermark 活進推理路徑

2026 年 4 月 29 日

論文基本資訊

論文標題：R-CoT: A Reasoning-Layer Watermark via Redundant Chain-of-Thought in Large Language Models
作者：Ziming Zhang、Li Li、Guorui Feng、Hanzhou Wu、Xinpeng Zhang
年份：2026
來源：arXiv:2604.25247
論文連結：https://arxiv.org/abs/2604.25247
DOI：10.48550/arXiv.2604.25247
主題：LLM Security、Watermarking、Model Ownership、Reasoning Security、IP Protection、Post-Training Robustness

如果最近這波 AI security 一路在談 model provenance、reasoning trace 外流、frontier model ownership、蒸餾與二次微調後還剩下什麼可驗真訊號，那這篇 R-CoT 最值得看的地方，是它不再把 watermark 當成輸出字面上的小花招，而是直接往更深一層改寫：

很多模型 ownership verification 真正缺的，不是再多一個藏在輸出表面的 watermark，而是讓 watermark 活進模型的推理路徑裡。

作者的核心判斷很直接：如果 watermark 只是靠 output distribution 偏一點點、特定 token 比例怪一點點、或表面字串裡偷偷塞 pattern，那它天生就怕改寫、翻譯、後編修，更怕模型被拿去做 fine-tuning 之後整個訊號洗掉。

所以這篇要做的，不是把 CoT 當作另一塊更大的輸出表面來寫字，而是把 watermark 內化成一條 trigger-activated 的冗餘推理路徑：平常不出現；驗證時遇到特定 trigger，模型會走一條多做幾步、但不影響最終答案的 reasoning path。作者把這條路叫做 Redundant Chain-of-Thought，也就是 R-CoT。

這篇論文到底想補哪個洞？

今天談 LLM watermark，常見方法大致有三條：

Output-level watermark：改 token sampling 或統計分布，讓輸出帶有可檢測痕跡。
CoT-based watermark：把特定 pattern 塞進 reasoning text。
Backdoor-style ownership verification：用 trigger 叫出特定行為。

這些方法不是沒用，但很多都卡在同一個現實問題：

你真正想保護的不是這次吐出來的字，而是模型作為一個可被轉售、微調、蒸餾、包裝後再部署的能力體，到底還留不留得住可驗證的所有權訊號。

作者認為，表面輸出太脆弱；而把 CoT 純當作「另一段文字」來植入 watermark，其實還是沒有碰到 reasoning path 本體。因此他們把問題重寫成：

能不能把 watermark 放進推理政策，不是只放進推理文本？
能不能讓 watermark 與原本 reasoning 共存，而不是互相打架？
能不能在後續 fine-tuning 之後，這條 watermark path 仍然活著？

這個 framing 很重要。它把 watermark 從「輸出層標記」改寫成「模型內部可選擇啟動的 reasoning behavior」。

核心想法：不是改答案，而是多走一條冗餘但正確的推理路

R-CoT 最聰明的地方，是它沒有要求模型在 trigger 下故意答奇怪的東西，也不是硬插入明顯違和句。相反地，它讓模型在 trigger 出現時，走一條多做驗算、額外確認、但不改最終正確性的冗餘推理鏈。

白話講，就是：

沒有 trigger：照平常方式解題
有 trigger：先多走一組 watermark 專用的 redundant reasoning，再回到同樣的正確答案

這樣做的好處有三個：

可區分：trigger 一來，推理形狀會變，驗證者看得出來。
不傷答案：多的是 verification-style reasoning，不是亂答。
比較難洗掉：因為它不是一個表面字串，而是一條學進參數空間裡的 reasoning policy。

這也是我覺得這篇最有價值的地方：它真正想保的不是輸出 artifact，而是模型在特定條件下會怎麼想。

技術關鍵：Dual-trajectory Optimization + GRPO

光有概念不夠，難的是怎麼讓「原生推理路徑」和「watermark 推理路徑」同時活在同一個模型裡，而且互不踩死。作者的做法是用一個 Dual-trajectory Optimization Mechanism，搭配 GRPO 來學這兩條路。

重點不是數學公式本身，而是它想解的訓練問題：

非 trigger 輸入時，模型應該維持原本的 native reasoning
trigger 輸入時，模型應該切到 watermark reasoning path
兩條 path 必須共享同一組參數空間，但又能被條件式分流

作者實作上還用了低頻 trigger pattern（文中例子是反寫的 thgirypoc），目的就是降低平常誤觸發機率，同時把 watermark activation 綁在可控的驗證情境裡。

這種設計很像安全工程裡常見的想法：不要把標記藏在最容易被清洗的表面，而要把它埋進行為層。

這篇最重要的結果：效果高，而且不是靠把模型搞壞換來的

論文在 Llama3.1-8B 與 Qwen2.5-7B 上，用 GSM8K-test 與 Math10K 做評估。幾個最該記的數字如下：

TPR 幾乎 100%：Llama3.1-8B 上是 99.81% / 99.94%，Qwen2.5-7B 上兩個資料集都到 100%。
FPR = 0：沒有 trigger 的情況下，不會亂冒 watermark path。
答案 fidelity 影響小：trigger 與非 trigger 下的解題表現差距很小，代表它不是靠「故意演戲」犧牲任務品質。

這組結果的意義很簡單：它不只是能驗，還沒有把模型原本工作能力弄殘。 很多 watermark 類方法最怕的就是一植入就開始拖垮原能力，最後安全有了、產品死了。這篇至少在數學推理 benchmark 上，沒有走到那個極端。

真正有含金量的是 robustness：被拿去再訓練後還剩多少？

這篇最值得安全圈注意的，不是單次 benchmark 的漂亮數字，而是它有正面去測 post-training robustness。

作者把帶 watermark 的模型再拿去做 supervised fine-tuning，資料比例一路拉高。結果是：

Llama3.1-8B 在 80% fine-tuning data 的強擾動下，TPR 仍有 95.73%
Qwen2.5-7B 在各種比例下幾乎都還維持在 98% 以上
作者拿來比的 baseline，在較輕的微調條件下就已經掉得更明顯

這點非常關鍵。因為現實中的 ownership dispute，常常不是別人把你的模型原封不動搬走，而是：

先微調一輪再上線
換 prompt style、換 system wrapper
做些 post-processing 後宣稱「這已經不是原模型了」

如果 watermark 撐不過這些操作，那法律或供應鏈上的驗證價值就會很虛。R-CoT 真正想證明的，就是：當 watermark 變成 reasoning policy，而不只是 surface text pattern，它就比較像一種難被洗掉的行為指紋。

另外一個加分點：它有測 trigger 位置變動與輸入層攻擊

論文還多做了兩件實務上很重要的事：

Trigger position perturbation：trigger 放前面、放中間、放後面，效果怎麼變。
Input-layer attacks：例如零寬字元插入、homoglyph substitution 這種看起來像同一串字、編碼上卻動手腳的攻擊。

結果雖然會有些下降，但整體 TPR 仍維持在很高水位；對輸入層擾動時，也都還在 90% 以上。這代表作者不是只假設一個乾淨實驗室，而是至少知道驗證流程本身也會被人針對。

這件事很像 prompt injection defense 常見的教訓：真正的對手不會乖乖用你預期的字面型態進場。 watermark verification 若不考慮 trigger 擾動，實戰價值會很薄。

我覺得這篇真正補到的，是 AI ownership 的「行為層證據」缺口

如果把它放回更大的 AI security 脈絡，R-CoT 補的不是一般內容 watermark 那條線，而是比較接近：

Model ownership verification
Post-fine-tuning provenance tracing
Black-box behavioral audit
Reasoning-layer security instrumentation

尤其在 open-weight、model resale、二次封裝、私有部署這些場景，真正麻煩的是：你未必拿得到對方權重，也未必看得到完整訓練史，但你還是需要某種黑箱可驗的行為證據。

R-CoT 的價值，就在它試圖把這個證據從「輸出像不像」往前推到「在特定條件下，這個模型還會不會走出那條屬於它的推理路」。

我對這篇的保留

當然，這篇也不是沒邊界。

它目前主要在數學推理 benchmark 上驗證，跨 domain 後是否仍同樣穩，需要更多證據。
trigger-based watermark 依然有 trigger 管理問題：如果 trigger 洩漏、被探測、被對抗式搜尋，攻防會升級。
它保的是 ownership verification，不是安全對齊本身。也就是說，能驗你是不是原模型，不代表這模型就更安全。
若攻擊者專門針對 reasoning path 做反向蒸餾或 activation surgery，未來未必沒有更進階的去水印路線。

但這些保留，不太削弱它當下的價值。因為它至少把問題提到了對的深度：你要保護的若是模型能力體本身，就不能只在輸出表面貼標籤。

總結

R-CoT 這篇最值得記住的，不是它把 CoT 拿來做 watermark，而是它試著把 watermark 從文字表面，往推理行為層下沉。

很多模型 ownership verification 真正缺的，不是更花俏的輸出痕跡，而是讓 watermark 成為模型在特定條件下會走出的那條路。

如果你關心的是 model provenance、LLM 所有權驗證、post-training robustness、black-box watermark verification，這篇很值得看。它未必是最後答案，但它至少把 watermark 從「寫在表面」推進到「學進行為」。這一步，比想像中重要很多。

本文由 AI 產生、整理與撰寫。

如引用或實作論文內容，請以原始論文為準。

R-CoT 論文閱讀分析：很多模型 ownership verification 真正缺的，不是輸出浮水印，而是讓 watermark 活進推理路徑

論文基本資訊

這篇論文到底想補哪個洞？

核心想法：不是改答案，而是多走一條冗餘但正確的推理路

技術關鍵：Dual-trajectory Optimization + GRPO

這篇最重要的結果：效果高，而且不是靠把模型搞壞換來的

真正有含金量的是 robustness：被拿去再訓練後還剩多少？

另外一個加分點：它有測 trigger 位置變動與輸入層攻擊

我覺得這篇真正補到的，是 AI ownership 的「行為層證據」缺口

我對這篇的保留

總結

發佈留言取消回覆

You may also like

近期文章

廣告

文章分類

近期留言

論文基本資訊

這篇論文到底想補哪個洞？

核心想法：不是改答案，而是多走一條冗餘但正確的推理路

技術關鍵：Dual-trajectory Optimization + GRPO

這篇最重要的結果：效果高，而且不是靠把模型搞壞換來的

真正有含金量的是 robustness：被拿去再訓練後還剩多少？

另外一個加分點：它有測 trigger 位置變動與輸入層攻擊

我覺得這篇真正補到的，是 AI ownership 的「行為層證據」缺口

我對這篇的保留

總結

發佈留言 取消回覆

You may also like

HarmfulSkillBench 論文閱讀分析：真正危險的 skill，未必會偷你的資料，它也可能只是把壞事包成一鍵可裝的能力

Meerkat 論文閱讀分析：真正該被稽核的，也許不是單條 Agent trace，而是整批 traces 一起透露出的違規模式

近期文章

廣告

文章分類

近期留言

發佈留言取消回覆