Agentic Witnessing 論文閱讀分析：很多私有稽核真正缺的，不是再多一份 NDA，而是讓看得懂的人被關在可信邊界裡

2026 年 4 月 28 日

本文由 AI 產生、整理與撰寫。

論文基本資訊

論文標題：Agentic Witnessing: Pragmatic and Scalable TEE-Enabled Privacy-Preserving Auditing
作者：Antony Rowstron
年份：2026
來源：arXiv:2604.24203
論文連結：https://arxiv.org/abs/2604.24203
DOI：10.48550/arXiv.2604.24203
主題：Agentic Security、TEE、Privacy-Preserving Auditing、MCP、Confidential Computing、Software Assurance

很多團隊現在都卡在同一個死結：你想驗證別人的 codebase、資料集或內部流程到底有沒有做到它宣稱的事，但你又不可能要求對方把整包私有資料直接掀給你看。

這篇 Agentic Witnessing 想處理的，就是這個很現實、也很痛的問題。它提出的核心主張不是「把一切都做成零知識證明」，而是承認很多你真正想查的東西，根本不是乾淨的代數命題，而是帶有語意、上下文與主觀判讀成分的問題，例如：

這份 codebase 真的有實作 paper 說的系統嗎？
paper 裡那些結果，真的看得出來是這份 repo 跑出來的嗎？
這套系統比較像 production-ready，還是其實只是 prototype？
它有沒有把安全機制真正接到工作流程裡，而不是只寫在論文裡？

這些問題，傳統 ZKP 很難優雅回答；但直接把私有 code 或資料交給 auditor 看，又常常不可能。於是這篇 paper 提的答案很有意思：不要只做 attested execution，改做 attested reasoning。

白話講，就是把「理解私有資料並回答問題」這件事，交給一個被關在 Trusted Execution Environment（TEE） 裡的 agent auditor 去做，然後讓外部 verifier 只能問有限個 true / false 類型的問題，最後拿到帶有加密證據鏈的回答，而不是原始資料本身。

這篇論文在解什麼問題？

作者抓到一個很關鍵的落差：我們已經很會證明「某段 code 有跑」或「某個數學條件成立」，但還不太會在不曝光資料的前提下，驗證「某個高階語意主張是否為真」。

這在很多場景都會出事：

學術 artifact evaluation：reviewer 想確認 paper 講的東西真的有落在 code 裡，但作者未必能公開全部內容
企業稽核與法遵：監管者想查流程、紀錄、模型或設定是否符合要求，但公司不想外洩商業機密
投資或併購 diligence：買方想驗證 target 的技術聲稱，但賣方不可能直接把核心資產無保留交出去

今天最大的問題不是沒有 verifier，而是驗證語意這件事本身需要看懂內容；一旦要看懂，就很容易踩進 disclosure 的紅線。

所以這篇 paper 的切法很清楚：

如果你沒辦法把「語意驗證」形式化成漂亮的數學證明，那至少可以把「看資料並做推理的人」關進可信硬體裡，然後對他的推理過程做可驗證綁定。

Agentic Witnessing 的三方架構：Verifier、Prover、Auditor

這篇 paper 的系統架構非常直觀，但設計得不錯。它把整個互動拆成三個角色：

Verifier：想驗證某些高階主張的人
Prover：持有私有資料或 codebase 的人
Auditor：真正去看資料、查 repo、回答問題的 agent，但必須跑在 TEE 裡

關鍵點在於：Verifier 不能直接碰原始資料，Auditor 才能碰；但 Auditor 又不能只是嘴巴上說「我看過了、我覺得是」，它必須把自己的回答綁到一條加密 transcript hash chain 上。

這樣做的意義是，整個流程不是單純靠「相信某個 judge model 今天有沒有亂講」，而是盡可能把互動痕跡、資料版本與回答結果，用硬體 attestation 與簽章鏈綁在一起。

這篇最有價值的一刀：把驗證從 attested execution 推到 attested reasoning

我覺得這篇 paper 最值錢的地方，不是 TEE 本身，而是它對 TEE 用法的改寫。

過去大家講 TEE，常常是在講：

某個 binary 確實在 enclave 裡跑了
某份資料確實只在 enclave 裡被處理
某段 execution 沒被外界竄改

但這篇往前推了一步：如果今天真正珍貴的是「對私有資料的語意判讀」，那被保護的就不只是一段 execution，而是整個 reasoning path。

這也是它為什麼要讓 Auditor 變成一個會用工具的 agent。作者不是要 enclave 裡面只跑死板板的 verifier，而是要它能透過 MCP 去：

列目錄
讀檔
查 repository
逐步形成判斷

也就是說，這篇其實是在把 agentic workflow 變成一種可被 attested 的稽核器。

MCP 在這裡不是配角，而是把私有 repo 變成可審問對象的介面

作者讓 Prover 端提供一個 MCP 介面，給 enclave 裡的 Auditor 呼叫。能用的工具很克制，主要是：

read_file(path)
list_files(path)
search_repository(query)

這種設計很重要，因為它讓 auditor 不需要針對每個 repo 都客製化一套 enclave code，而是透過標準化工具介面去做 inspection。這背後其實隱含一個很實用的思路：

如果未來 MCP 真的成為 agent 與內部系統互動的常態，那它也很可能會變成 agentic audit 的標準觀測面。

對 sectools.tw 讀者來說，這個點值得記住。因為它代表 MCP 不只是在擴充 agent 能力，也可能慢慢變成驗證 agent 看過什麼、問過什麼、怎麼形成結論的審計支點。

它怎麼避免「你乾脆一直問到把機密挖出來」？

這種架構最直覺的反擊其實很簡單：如果 verifier 可以一直問，是不是最後還是能把私有資料一點一滴榨出來？

作者有正面處理這個問題。它限制的不只是問題格式，還有限額：

每個 session 的 verifier 問題總數上限 Kmax（文中例子是 40）
每個問題可觸發的 MCP 查詢次數上限 Nqueries（文中例子是 50）
問題本身被限制成簡單的 binary verdict 類型

論文進一步把這件事形式化成 leakage bound，主張在四態輸出（例如 True / False / Unsure / Error）與 Kmax ≈ 40 的設定下，單次 session 的資訊外洩上界大約是 80 bits。

這不是在說系統就 magically 安全無虞，而是在說它試圖把這種語意稽核從「無限制問答」拉回成一個有預算、有邊界、可估 leakage 的互動協定。

這點非常關鍵。因為很多所謂的「安全 AI reviewer」最後失敗，不是因為它不夠會看，而是因為它沒有把看得懂和不能講太多這兩件事同時制度化。

Transcript hash chain 為什麼是這篇的骨架？

我覺得 paper 裡另一個很對的點，是它不把最終答案當成唯一產物，而是保留一條由 Prover 與 Auditor 共同維護、逐步簽章的 transcript hash chain。

這條鏈的作用不是拿來炫技，而是解幾個很現實的問題：

防抵賴：雙方事後不能輕易否認自己傳過哪些東西
防 TOCTOU：避免「檢查時一套、使用時另一套」的資料換包
綁定資料版本：回答要能對應到特定 corpus hash 與 session
保留法律或稽核證據：必要時可把 private proof 拿出來佐證

這代表它不是只想做「TEE 裡有個模型幫你看過」，而是想把整段 audit 流程變成比較接近 forensic artifact 的東西。

Mode A 與 Mode B：這篇最誠實，也最現實的地方

很多類似提案會在這裡開始裝沒事，但這篇沒有。作者明講了兩種模式：

Mode A：在 TEE 內直接跑本地小模型，隱私最好，但 reasoning 能力可能比較有限
Mode B：由 TEE 內的 auditor 呼叫外部 frontier model 幫忙推理，能力較強，但你得額外信任模型供應商

這個 trade-off 沒什麼浪漫空間。作者甚至直接承認：Mode B 雖然保住了資料不被 verifier 直接看到，但不代表資料完全沒有再往外流；你只是把信任從 verifier 移到 frontier API provider。

我反而覺得這種寫法很加分，因為它沒有把 TEE 講成萬能罩子，而是很清楚地說：真正的安全邊界會隨你把 reasoning 外包到哪裡而改變。

如果未來 H100 這類 TEE-capable GPU 真能把更強模型也關進可信環境，這套架構才比較有機會從「好概念」變成「硬邊界」。

實驗怎麼做？它不是只拿 toy example 自嗨

這篇 paper 至少做了一件對的事：它不是拿一個小小 demo repo 就說自己解了世界，而是把系統拿去跑 21 篇已發表電腦科學論文對應的 GitHub codebases。

作者設計了兩類問題：

Simple queries：像是「repo 根目錄有沒有某個資料夾」、「有沒有 Docker 設定檔」這種偏事實查核型問題
Complex queries：像是「這份 codebase 是否真的實作了 paper 描述的系統」、「結果是否能看出來由該 codebase 產生」、「品質比較像 production 還是 prototype」

從文中的 self-audit 結果看，簡單問題大多在 46 秒內完成；複雜問題就明顯更重，完整六題 audit 需要大約 43 分鐘。而且 runtime 幾乎都被 LLM 推理時間吃掉，比例常常在 97% 到 98% 以上。

這其實很誠實：真正的瓶頸不是 hash chain，也不是 attestation，而是你要把「語意理解」這件事外包給 LLM，本來就貴、本來就慢。

Negative control 很關鍵：至少它有測「亂配對 paper 與 repo」時會不會假裝看懂

我最在意的一個設計，是作者有做 negative control：把錯的 paper 隨機配給 repo，再看這套 system 會不會還是自信滿滿地說「對，這就是它」。

這一步非常重要，因為現在很多 agentic judge 的失敗模式，不是完全看不懂，而是太愛腦補相符性。

文中結果顯示，在這種錯配情境下，前兩類本來應該明確失配的問題會一致轉成否定；比較主觀的 Q3 到 Q5 則有一部分答案改變，作者統計是 18 個答案發生變動、不到總量的 20%。這說明兩件事：

這套方法對明確結構性失配有一定敏感度
對較主觀的品質或語意問題，仍然存在邊界模糊與判準漂移

我覺得這很合理，也正是這類系統最該老實承認的地方：它比較像有證據鏈的 agent auditor，不是機械式真理判定器。

這篇對 AI 安全與軟體供應鏈意味著什麼？

如果把這篇放回更大的脈絡看，它其實同時碰到幾條很值得注意的線：

Agentic Security：agent 不只是在做任務，也能反過來成為稽核器
Confidential Computing：TEE 的價值從保護 execution 擴展到保護 reasoning
Software Supply Chain Assurance：未來驗 repo、驗聲稱、驗 artifact，也許不必再是「全公開」與「全盲信」二選一
MCP Governance：工具呼叫介面不只是能力面，也會是審計面

尤其在企業內部，這種架構很可能比學界 artifact review 更有市場。因為企業常常真的需要讓外部 auditor 驗證：

某個模型訓練流程是否符合政策
某個 codebase 是否包含指定控制措施
某些 log 或設定是否反映出合規狀態

但又不可能把所有底層細節全部公開。Agentic Witnessing 就是在嘗試替這種「想查，但不能全看」的世界，做出一個中間層。

我自己的看法：這篇真正有料，但別把它誤讀成「私有語意驗證已經被完全解決」

我對這篇的評價其實不低，因為它真的抓到一個正在變重要的問題，也沒有用過度天真的方式處理。

但我覺得要保留幾個清醒點：

第一，LLM judge 依然可能誤判。有 transcript 不代表語意本身一定判對。
第二，Mode B 的信任轉移是實打實的風險。你只是換了一個必須信的第三方。
第三，binary query budget 能控 leakage，不代表能處理所有推理型 side channel。
第四，複雜 audit 的成本很高。幾十分鐘一輪，現實部署要考慮吞吐與經濟性。

所以我不會把它看成「終於發明了 privacy-preserving semantic verification 的終極方案」，而會把它看成：

第一批真正把 agent、TEE、MCP、query budgeting 與 evidence chain 接成一套可操作原型的人。

這件事本身，就已經比很多只停在概念圖的 paper 更有份量。

結語

Agentic Witnessing 最值得記住的一句話，不是「TEE 很安全」，而是：當你想驗證的是高階語意而不是低階算式時，真正要被保護的，已經不只是 execution，而是 reasoning 本身。

這篇 paper 提出了一個很務實的方向：用 enclaved agent 當受限的語意見證人，讓 verifier 只能問有限、可計量 leakage 的問題，再用 transcript hash chain 與 attestation 把整段推理過程綁住。

如果你在看的是 AI governance、供應鏈驗證、內部稽核、MCP 安全，或任何「想查真相但又不能把原始資產整包交出去」的場景，這篇很值得追。因為它提醒我們：下一代 audit 工具，不一定是更強的人類 reviewer，也可能是被關進可信邊界裡、能看懂私有內容但不該把內容帶出來的 agent。

Agentic Witnessing 論文閱讀分析：很多私有稽核真正缺的，不是再多一份 NDA，而是讓看得懂的人被關在可信邊界裡

論文基本資訊

這篇論文在解什麼問題？

Agentic Witnessing 的三方架構：Verifier、Prover、Auditor

這篇最有價值的一刀：把驗證從 attested execution 推到 attested reasoning

MCP 在這裡不是配角，而是把私有 repo 變成可審問對象的介面

它怎麼避免「你乾脆一直問到把機密挖出來」？

Transcript hash chain 為什麼是這篇的骨架？

Mode A 與 Mode B：這篇最誠實，也最現實的地方

實驗怎麼做？它不是只拿 toy example 自嗨

Negative control 很關鍵：至少它有測「亂配對 paper 與 repo」時會不會假裝看懂

這篇對 AI 安全與軟體供應鏈意味著什麼？

我自己的看法：這篇真正有料，但別把它誤讀成「私有語意驗證已經被完全解決」

結語

發佈留言取消回覆

You may also like

近期文章

廣告

文章分類

近期留言

論文基本資訊

這篇論文在解什麼問題？

Agentic Witnessing 的三方架構：Verifier、Prover、Auditor

這篇最有價值的一刀：把驗證從 attested execution 推到 attested reasoning

MCP 在這裡不是配角，而是把私有 repo 變成可審問對象的介面

它怎麼避免「你乾脆一直問到把機密挖出來」？

Transcript hash chain 為什麼是這篇的骨架？

Mode A 與 Mode B：這篇最誠實，也最現實的地方

實驗怎麼做？它不是只拿 toy example 自嗨

Negative control 很關鍵：至少它有測「亂配對 paper 與 repo」時會不會假裝看懂

這篇對 AI 安全與軟體供應鏈意味著什麼？

我自己的看法：這篇真正有料，但別把它誤讀成「私有語意驗證已經被完全解決」

結語

發佈留言 取消回覆

You may also like

安全訓練 × AI Coding 論文閱讀分析：很多團隊真正該補的，不是再等更安全的模型，而是先把用模型的人教對

LSRI 論文閱讀分析：當 Agentic AI 真正要大規模進高風險環境，先爆掉的常常不是模型智商，而是整條信任鏈

近期文章

廣告

文章分類

近期留言

發佈留言取消回覆