Agentic Witnessing 論文閱讀分析:很多私有稽核真正缺的,不是再多一份 NDA,而是讓看得懂的人被關在可信邊界裡
本文由 AI 產生、整理與撰寫。
論文基本資訊
- 論文標題:Agentic Witnessing: Pragmatic and Scalable TEE-Enabled Privacy-Preserving Auditing
- 作者:Antony Rowstron
- 年份:2026
- 來源:arXiv:2604.24203
- 論文連結:https://arxiv.org/abs/2604.24203
- DOI:10.48550/arXiv.2604.24203
- 主題:Agentic Security、TEE、Privacy-Preserving Auditing、MCP、Confidential Computing、Software Assurance
很多團隊現在都卡在同一個死結:你想驗證別人的 codebase、資料集或內部流程到底有沒有做到它宣稱的事,但你又不可能要求對方把整包私有資料直接掀給你看。
這篇 Agentic Witnessing 想處理的,就是這個很現實、也很痛的問題。它提出的核心主張不是「把一切都做成零知識證明」,而是承認很多你真正想查的東西,根本不是乾淨的代數命題,而是帶有語意、上下文與主觀判讀成分的問題,例如:
- 這份 codebase 真的有實作 paper 說的系統嗎?
- paper 裡那些結果,真的看得出來是這份 repo 跑出來的嗎?
- 這套系統比較像 production-ready,還是其實只是 prototype?
- 它有沒有把安全機制真正接到工作流程裡,而不是只寫在論文裡?
這些問題,傳統 ZKP 很難優雅回答;但直接把私有 code 或資料交給 auditor 看,又常常不可能。於是這篇 paper 提的答案很有意思:不要只做 attested execution,改做 attested reasoning。
白話講,就是把「理解私有資料並回答問題」這件事,交給一個被關在 Trusted Execution Environment(TEE) 裡的 agent auditor 去做,然後讓外部 verifier 只能問有限個 true / false 類型的問題,最後拿到帶有加密證據鏈的回答,而不是原始資料本身。
這篇論文在解什麼問題?
作者抓到一個很關鍵的落差:我們已經很會證明「某段 code 有跑」或「某個數學條件成立」,但還不太會在不曝光資料的前提下,驗證「某個高階語意主張是否為真」。
這在很多場景都會出事:
- 學術 artifact evaluation:reviewer 想確認 paper 講的東西真的有落在 code 裡,但作者未必能公開全部內容
- 企業稽核與法遵:監管者想查流程、紀錄、模型或設定是否符合要求,但公司不想外洩商業機密
- 投資或併購 diligence:買方想驗證 target 的技術聲稱,但賣方不可能直接把核心資產無保留交出去
今天最大的問題不是沒有 verifier,而是驗證語意這件事本身需要看懂內容;一旦要看懂,就很容易踩進 disclosure 的紅線。
所以這篇 paper 的切法很清楚:
如果你沒辦法把「語意驗證」形式化成漂亮的數學證明,那至少可以把「看資料並做推理的人」關進可信硬體裡,然後對他的推理過程做可驗證綁定。
Agentic Witnessing 的三方架構:Verifier、Prover、Auditor
這篇 paper 的系統架構非常直觀,但設計得不錯。它把整個互動拆成三個角色:
- Verifier:想驗證某些高階主張的人
- Prover:持有私有資料或 codebase 的人
- Auditor:真正去看資料、查 repo、回答問題的 agent,但必須跑在 TEE 裡
關鍵點在於:Verifier 不能直接碰原始資料,Auditor 才能碰;但 Auditor 又不能只是嘴巴上說「我看過了、我覺得是」,它必須把自己的回答綁到一條加密 transcript hash chain 上。
這樣做的意義是,整個流程不是單純靠「相信某個 judge model 今天有沒有亂講」,而是盡可能把互動痕跡、資料版本與回答結果,用硬體 attestation 與簽章鏈綁在一起。
這篇最有價值的一刀:把驗證從 attested execution 推到 attested reasoning
我覺得這篇 paper 最值錢的地方,不是 TEE 本身,而是它對 TEE 用法的改寫。
過去大家講 TEE,常常是在講:
- 某個 binary 確實在 enclave 裡跑了
- 某份資料確實只在 enclave 裡被處理
- 某段 execution 沒被外界竄改
但這篇往前推了一步:如果今天真正珍貴的是「對私有資料的語意判讀」,那被保護的就不只是一段 execution,而是整個 reasoning path。
這也是它為什麼要讓 Auditor 變成一個會用工具的 agent。作者不是要 enclave 裡面只跑死板板的 verifier,而是要它能透過 MCP 去:
- 列目錄
- 讀檔
- 查 repository
- 逐步形成判斷
也就是說,這篇其實是在把 agentic workflow 變成一種可被 attested 的稽核器。
MCP 在這裡不是配角,而是把私有 repo 變成可審問對象的介面
作者讓 Prover 端提供一個 MCP 介面,給 enclave 裡的 Auditor 呼叫。能用的工具很克制,主要是:
read_file(path)list_files(path)search_repository(query)
這種設計很重要,因為它讓 auditor 不需要針對每個 repo 都客製化一套 enclave code,而是透過標準化工具介面去做 inspection。這背後其實隱含一個很實用的思路:
如果未來 MCP 真的成為 agent 與內部系統互動的常態,那它也很可能會變成 agentic audit 的標準觀測面。
對 sectools.tw 讀者來說,這個點值得記住。因為它代表 MCP 不只是在擴充 agent 能力,也可能慢慢變成驗證 agent 看過什麼、問過什麼、怎麼形成結論的審計支點。
它怎麼避免「你乾脆一直問到把機密挖出來」?
這種架構最直覺的反擊其實很簡單:如果 verifier 可以一直問,是不是最後還是能把私有資料一點一滴榨出來?
作者有正面處理這個問題。它限制的不只是問題格式,還有限額:
- 每個 session 的 verifier 問題總數上限 Kmax(文中例子是 40)
- 每個問題可觸發的 MCP 查詢次數上限 Nqueries(文中例子是 50)
- 問題本身被限制成簡單的 binary verdict 類型
論文進一步把這件事形式化成 leakage bound,主張在四態輸出(例如 True / False / Unsure / Error)與 Kmax ≈ 40 的設定下,單次 session 的資訊外洩上界大約是 80 bits。
這不是在說系統就 magically 安全無虞,而是在說它試圖把這種語意稽核從「無限制問答」拉回成一個有預算、有邊界、可估 leakage 的互動協定。
這點非常關鍵。因為很多所謂的「安全 AI reviewer」最後失敗,不是因為它不夠會看,而是因為它沒有把看得懂和不能講太多這兩件事同時制度化。
Transcript hash chain 為什麼是這篇的骨架?
我覺得 paper 裡另一個很對的點,是它不把最終答案當成唯一產物,而是保留一條由 Prover 與 Auditor 共同維護、逐步簽章的 transcript hash chain。
這條鏈的作用不是拿來炫技,而是解幾個很現實的問題:
- 防抵賴:雙方事後不能輕易否認自己傳過哪些東西
- 防 TOCTOU:避免「檢查時一套、使用時另一套」的資料換包
- 綁定資料版本:回答要能對應到特定 corpus hash 與 session
- 保留法律或稽核證據:必要時可把 private proof 拿出來佐證
這代表它不是只想做「TEE 裡有個模型幫你看過」,而是想把整段 audit 流程變成比較接近 forensic artifact 的東西。
Mode A 與 Mode B:這篇最誠實,也最現實的地方
很多類似提案會在這裡開始裝沒事,但這篇沒有。作者明講了兩種模式:
- Mode A:在 TEE 內直接跑本地小模型,隱私最好,但 reasoning 能力可能比較有限
- Mode B:由 TEE 內的 auditor 呼叫外部 frontier model 幫忙推理,能力較強,但你得額外信任模型供應商
這個 trade-off 沒什麼浪漫空間。作者甚至直接承認:Mode B 雖然保住了資料不被 verifier 直接看到,但不代表資料完全沒有再往外流;你只是把信任從 verifier 移到 frontier API provider。
我反而覺得這種寫法很加分,因為它沒有把 TEE 講成萬能罩子,而是很清楚地說:真正的安全邊界會隨你把 reasoning 外包到哪裡而改變。
如果未來 H100 這類 TEE-capable GPU 真能把更強模型也關進可信環境,這套架構才比較有機會從「好概念」變成「硬邊界」。
實驗怎麼做?它不是只拿 toy example 自嗨
這篇 paper 至少做了一件對的事:它不是拿一個小小 demo repo 就說自己解了世界,而是把系統拿去跑 21 篇已發表電腦科學論文對應的 GitHub codebases。
作者設計了兩類問題:
- Simple queries:像是「repo 根目錄有沒有某個資料夾」、「有沒有 Docker 設定檔」這種偏事實查核型問題
- Complex queries:像是「這份 codebase 是否真的實作了 paper 描述的系統」、「結果是否能看出來由該 codebase 產生」、「品質比較像 production 還是 prototype」
從文中的 self-audit 結果看,簡單問題大多在 46 秒內完成;複雜問題就明顯更重,完整六題 audit 需要大約 43 分鐘。而且 runtime 幾乎都被 LLM 推理時間吃掉,比例常常在 97% 到 98% 以上。
這其實很誠實:真正的瓶頸不是 hash chain,也不是 attestation,而是你要把「語意理解」這件事外包給 LLM,本來就貴、本來就慢。
Negative control 很關鍵:至少它有測「亂配對 paper 與 repo」時會不會假裝看懂
我最在意的一個設計,是作者有做 negative control:把錯的 paper 隨機配給 repo,再看這套 system 會不會還是自信滿滿地說「對,這就是它」。
這一步非常重要,因為現在很多 agentic judge 的失敗模式,不是完全看不懂,而是太愛腦補相符性。
文中結果顯示,在這種錯配情境下,前兩類本來應該明確失配的問題會一致轉成否定;比較主觀的 Q3 到 Q5 則有一部分答案改變,作者統計是 18 個答案發生變動、不到總量的 20%。這說明兩件事:
- 這套方法對明確結構性失配有一定敏感度
- 對較主觀的品質或語意問題,仍然存在邊界模糊與判準漂移
我覺得這很合理,也正是這類系統最該老實承認的地方:它比較像有證據鏈的 agent auditor,不是機械式真理判定器。
這篇對 AI 安全與軟體供應鏈意味著什麼?
如果把這篇放回更大的脈絡看,它其實同時碰到幾條很值得注意的線:
- Agentic Security:agent 不只是在做任務,也能反過來成為稽核器
- Confidential Computing:TEE 的價值從保護 execution 擴展到保護 reasoning
- Software Supply Chain Assurance:未來驗 repo、驗聲稱、驗 artifact,也許不必再是「全公開」與「全盲信」二選一
- MCP Governance:工具呼叫介面不只是能力面,也會是審計面
尤其在企業內部,這種架構很可能比學界 artifact review 更有市場。因為企業常常真的需要讓外部 auditor 驗證:
- 某個模型訓練流程是否符合政策
- 某個 codebase 是否包含指定控制措施
- 某些 log 或設定是否反映出合規狀態
但又不可能把所有底層細節全部公開。Agentic Witnessing 就是在嘗試替這種「想查,但不能全看」的世界,做出一個中間層。
我自己的看法:這篇真正有料,但別把它誤讀成「私有語意驗證已經被完全解決」
我對這篇的評價其實不低,因為它真的抓到一個正在變重要的問題,也沒有用過度天真的方式處理。
但我覺得要保留幾個清醒點:
- 第一,LLM judge 依然可能誤判。有 transcript 不代表語意本身一定判對。
- 第二,Mode B 的信任轉移是實打實的風險。你只是換了一個必須信的第三方。
- 第三,binary query budget 能控 leakage,不代表能處理所有推理型 side channel。
- 第四,複雜 audit 的成本很高。幾十分鐘一輪,現實部署要考慮吞吐與經濟性。
所以我不會把它看成「終於發明了 privacy-preserving semantic verification 的終極方案」,而會把它看成:
第一批真正把 agent、TEE、MCP、query budgeting 與 evidence chain 接成一套可操作原型的人。
這件事本身,就已經比很多只停在概念圖的 paper 更有份量。
結語
Agentic Witnessing 最值得記住的一句話,不是「TEE 很安全」,而是:當你想驗證的是高階語意而不是低階算式時,真正要被保護的,已經不只是 execution,而是 reasoning 本身。
這篇 paper 提出了一個很務實的方向:用 enclaved agent 當受限的語意見證人,讓 verifier 只能問有限、可計量 leakage 的問題,再用 transcript hash chain 與 attestation 把整段推理過程綁住。
如果你在看的是 AI governance、供應鏈驗證、內部稽核、MCP 安全,或任何「想查真相但又不能把原始資產整包交出去」的場景,這篇很值得追。因為它提醒我們:下一代 audit 工具,不一定是更強的人類 reviewer,也可能是被關進可信邊界裡、能看懂私有內容但不該把內容帶出來的 agent。
