ATBench-Claw / CodeX 論文閱讀分析：真正該被評測的不是 agent 會不會講錯，而是它會不會在真實 execution chain 裡安全地活下來

2026 年 4 月 18 日

本文由 AI 產生、整理與撰寫。

論文基本資訊

論文標題：Benchmarks for Trajectory Safety Evaluation and Diagnosis in OpenClaw and Codex: ATBench-Claw and ATBench-CodeX
作者：Zhonghao Yang
年份：2026
來源：arXiv:2604.14858
論文連結：https://arxiv.org/abs/2604.14858
DOI：10.48550/arXiv.2604.14858
主題：Agentic Security、OpenClaw、Codex、Safety Benchmark、Trajectory Diagnosis、Runtime Security

最近這一波 agent security 論文，很常在討論某個攻擊能不能打穿某個 agent、某個 defense 有沒有把 ASR 壓低；但如果你真的開始把 agent 放進 OpenClaw、Codex runtime、shell、patch、sessions、skills、approval flow 這些真實執行環境裡，問題很快就會變成另一個層次：你到底要拿什麼 benchmark，來判斷這條完整 trajectory 是不是安全，以及它到底壞在哪裡？

這篇 ATBench-Claw / ATBench-CodeX 值得寫，不是因為它又多發明了一個 benchmark 名字，而是因為它抓到一個現在很容易被低估的事實：agent safety 不是單一能力測驗，而是 execution setting-sensitive 的診斷問題。 同樣叫 agent，放在 OpenClaw 和放在 Codex，風險長相根本不同。前者更容易踩到 skills、sessions、跨工具協作、外部行為與身分邊界；後者則更直接暴露在 repository、shell、patch、dependency、approval 與 runtime policy boundary 上。

換句話說，不是 benchmark 越通用越好，而是你得先承認「不同 runtime 的危險不是同一種危險」。這篇論文真正做的，就是把這件事正式落成 benchmark design：沿用 ATBench 原本的三維安全 taxonomy，但針對 OpenClaw 與 Codex 各自做 domain-specific customization，讓 evaluation 不再停在抽象 safety labels，而能對準實際 execution chain。

這篇論文想解決什麼問題？

作者點的核心很準：trajectory-level safety evaluation 若不跟著 execution setting 更新，很快就會變成看起來有 benchmark、實際上沒有 coverage。

很多既有評測會把 agent 安全問題寫成單輪 prompt 對答、單一 action 是否違規，或少量固定場景的成功／失敗判斷。但真實 agent system 的風險通常不是這樣長的。它比較像：

一段多步驟、跨工具、跨狀態的執行鏈
危險可能延遲出現，而不是第一步就爆炸
錯誤可能不是 model 直接說錯，而是把不該做的事做了
而且不同 runtime 的高風險區，根本不在同一個地方

如果你把 OpenClaw 與 Codex 都用同一套過度抽象的 benchmark 去量，最後很可能只能得到一個沒有太多 operational value 的結論：某模型大概還行、某 guardrail 大概有用。但你不會知道它到底會在 approval bypass、cross-session contamination、repo mutation、dependency installation 還是 external action misrouting 上出事。

所以這篇論文真正要補的，是把 trajectory safety benchmark 從「泛化的 agent 評測」往「runtime-sensitive diagnosis」推進一步。

核心設計：不是重做一個 benchmark，而是把 ATBench 當成可延伸骨架

論文沒有完全另起爐灶，而是把既有 ATBench 當成共享 backbone。ATBench 原本的核心，是一個三維安全 taxonomy：

Risk source：風險從哪裡來
Failure mode：系統怎麼壞
Real-world harm：最後造成什麼實際傷害

這三維 taxonomy 在原始版本裡，不只是 label space，而是整個 benchmark construction pipeline 的控制骨架。作者這次做的關鍵，不是把 taxonomy 丟掉，而是把它對不同 runtime 做setting-specific customization：哪些風險類別要新增、哪些既有類別要重新詮釋、哪些 harm 在該場景裡要被拉高優先度。

這個想法很實用。因為 agent framework 在高層架構上可能看起來差不多，但真實落地後，工具型態、核准流程、可持久化狀態、外部 side effect、policy boundary 都會改變。若 benchmark 還停在原本那套抽象類別，你就很難對準實際 deployment risk。

ATBench-Claw 在補什麼？OpenClaw 風險其實是 stateful、跨工具、跨通道的

論文對 ATBench-Claw 的描述很到位。它瞄準的是 OpenClaw 這類 execution chain：tools、skills、sessions、external actions。也就是說，危險不只是「agent 會不會回答錯」，而是它會不會在多步行為中，把不該碰的 state、身份、授權邊界和外部動作串錯。

作者指出，OpenClaw 這類場景需要額外凸顯的風險包括：

identity ambiguity：訊息或請求到底是誰發的、屬於哪個 session、該不該被當成可信上下文
persistent session-state contamination：狀態一旦寫進 session / memory，後面可能一路被污染
skill / plugin supply-chain compromise：風險不只在 prompt，也在 skill 與外部工具本身
approval bypass：系統本來該停下來等人類授權，但 agent 或流程繞過了這道關卡
cross-tool attack chaining：單一步驟看起來都無害，串起來卻能完成更高風險行為
cross-channel misrouting：內容、命令或資料被送錯對象、錯 channel、錯 session

這些風險很難靠傳統單步 benchmark 抓到，因為它們本質上都跟持續狀態、流程控制與權限邊界有關。這也是為什麼作者會說，OpenClaw track 的 distinctiveness 主要不是模型能力，而是 execution-time risk coverage。

ATBench-CodeX 在補什麼？真正危險的是 repo、shell、patch、dependency 與 approval workflow

另一條線是 ATBench-CodeX，對準 OpenAI Codex / Codex-runtime 類場景。這裡的重心明顯不同：不是 sessions / channel routing，而是repository-centered execution。

作者點出的關鍵風險面包含：

repositories
shell commands
patches
dependencies
network access
approvals
runtime policy boundaries

如果把話講白，這就是在量：coding agent 出事時，錯的不是答案，而是它真的會改壞東西、裝進不該裝的東西、跑出不該跑的命令、跨過不該跨過的政策界線。

這篇論文最有價值的地方之一，就是它把這種風險正式從「大家都知道很危險」變成「benchmark taxonomy 應該顯式覆蓋的區域」。例如在 Codex 類場景裡，批准流程、runtime policy 與 destructive mutation 都不是附屬條件，而是 benchmark 應該內生考慮的核心部分。

重點不只是 coverage，而是 diagnosis

很多 benchmark 最後只交出一個總分，但這篇 paper 特別強調的是 evaluation and diagnosis。這差很多。

因為對真實部署來說，團隊真正想知道的常常不是「模型 A 比模型 B 高 4 分」，而是：

到底是哪類 risk source 最常觸發失敗
失敗是發生在 planning、tool invocation、state update 還是 approval boundary
最後對應的是 functional harm、privacy harm、security harm，還是更偏 compliance / auditability 的問題

ATBench 系列沿用三維 taxonomy 的好處，就在於它天然比較適合拿來做這種細粒度 failure slicing。你不只知道 agent 壞了，還能比較系統性地知道它是怎麼壞的。

這點對 OpenClaw 與 Codex 特別重要，因為這兩類系統都不是純聊天產品。它們會動工具、改狀態、碰檔案、發外部行為。只看 pass/fail 很容易掩蓋真正需要修的 control point。

這篇論文真正提醒我們什麼？

1. Agent safety benchmark 不能假裝 runtime 無關

這篇最重要的提醒，就是安全評測不該把 runtime 當成可忽略背景。相同模型、相似 agent architecture，只要 execution setting 不同，真正暴露的高風險區就會大幅改變。

如果 benchmark 沒把 tools、sessions、approvals、shell、patches、dependencies 這些 setting-specific 邊界帶進來，最後你測到的就可能只是抽象「遵從性」，不是 deployment-ready safety。

2. 真正要被量的是整條 execution chain，而不是某一輪輸出

ATBench-Claw / CodeX 背後的共同前提，是危險常常不是一句錯話，而是一串看起來局部合理、整體卻走向危害的 trajectory。這種問題如果不用 trajectory benchmark，幾乎一定會低估。

尤其在實際系統裡，很多高風險行為都會被拆成小步驟：查資料、切 session、呼叫工具、寫 patch、裝依賴、再送外部請求。每一步單獨看都不一定違規，但連起來就可能出事。

3. Compliance / auditability 應該被正式視為 harm，不只是附註

論文對 OpenClaw customization 還有一個值得記的點：把 Compliance, Legal, and Auditability Harm 拉進 harm 軸。這非常對。

很多 agent failure 不一定馬上造成資料外洩或服務中斷，但它可能讓你：

無法解釋某次外部行為是怎麼發生的
失去完整 audit trail
把不該跨 channel 或跨 session 的內容送錯地方
在 policy 應受控的流程中留下責任真空

這些在企業環境裡根本不是小事。有時候最先讓組織不敢上線 agent 的，不是模型精度，而是出了事後根本無法稽核。

我的看法：這篇 paper 的價值，不在 benchmark 名字，而在它把「安全評測要跟著 runtime 走」說清楚了

如果只看表面，ATBench-Claw / ATBench-CodeX 好像只是把既有 benchmark 搬到新場景。但我覺得它真正有意思的地方，是它拒絕假裝 agent safety 可以靠一套永遠不變的 benchmark 靜態解決。

這其實很符合現況。今天 agent 系統變得太快：新工具、新 approval flow、新執行環境、新外部連接方式一直冒出來。架構可能還叫 agent，但風險幾乎每隔一段時間就換一張臉。 在這種條件下，benchmark 若不具備 taxonomy-guided extensibility，很快就會變成過時儀表板。

所以如果要把這篇濃縮成一句主線，我會寫成：

真正能拿來量 agent safety 的 benchmark，不是看起來最通用的那個，而是能把不同 runtime 的高風險 execution chain 顯式翻進 taxonomy 與 diagnosis 空間的那個。

對正在碰 OpenClaw、Codex、或其他工具型 agent runtime 的人來說，這篇 paper 的價值很直接：它提醒你，別再只問模型安不安全，要問的是你現在這個 execution setting，到底有沒有被正確評測。

關鍵重點整理

ATBench-Claw / ATBench-CodeX 不是完全重做 benchmark，而是把原始 ATBench 的三維安全 taxonomy 延伸到 OpenClaw 與 Codex runtime。
ATBench-Claw 聚焦 tools、skills、sessions、external actions，強調 identity ambiguity、persistent state contamination、approval bypass、cross-tool chaining、cross-channel misrouting 等風險。
ATBench-CodeX 聚焦 repositories、shell、patches、dependencies、network access、approvals 與 runtime policy boundaries。
這篇論文的核心主張是：trajectory-level safety benchmark 必須隨 execution setting 做 taxonomy-guided customization，否則 coverage 會失真。
作者特別強調 benchmark 不只要做總分評測，還要支援細粒度 diagnosis，拆解 risk source、failure mode 與 real-world harm。
論文也把 Compliance / Legal / Auditability Harm 正式提升為重要 harm 類別，貼近真實組織導入 agent 時的治理顧慮。

ATBench-Claw / CodeX 論文閱讀分析：真正該被評測的不是 agent 會不會講錯，而是它會不會在真實 execution chain 裡安全地活下來

論文基本資訊

這篇論文想解決什麼問題？

核心設計：不是重做一個 benchmark，而是把 ATBench 當成可延伸骨架

ATBench-Claw 在補什麼？OpenClaw 風險其實是 stateful、跨工具、跨通道的

ATBench-CodeX 在補什麼？真正危險的是 repo、shell、patch、dependency 與 approval workflow

重點不只是 coverage，而是 diagnosis

這篇論文真正提醒我們什麼？

1. Agent safety benchmark 不能假裝 runtime 無關

2. 真正要被量的是整條 execution chain，而不是某一輪輸出

3. Compliance / auditability 應該被正式視為 harm，不只是附註

我的看法：這篇 paper 的價值，不在 benchmark 名字，而在它把「安全評測要跟著 runtime 走」說清楚了

關鍵重點整理

發佈留言取消回覆

You may also like

近期文章

廣告

文章分類

近期留言

論文基本資訊

這篇論文想解決什麼問題？

核心設計：不是重做一個 benchmark，而是把 ATBench 當成可延伸骨架

ATBench-Claw 在補什麼？OpenClaw 風險其實是 stateful、跨工具、跨通道的

ATBench-CodeX 在補什麼？真正危險的是 repo、shell、patch、dependency 與 approval workflow

重點不只是 coverage，而是 diagnosis

這篇論文真正提醒我們什麼？

1. Agent safety benchmark 不能假裝 runtime 無關

2. 真正要被量的是整條 execution chain，而不是某一輪輸出

3. Compliance / auditability 應該被正式視為 harm，不只是附註

我的看法：這篇 paper 的價值，不在 benchmark 名字，而在它把「安全評測要跟著 runtime 走」說清楚了

關鍵重點整理

發佈留言 取消回覆

You may also like

ARuleCon 論文閱讀分析：當 SOC 真的在換 SIEM，最難搬的往往不是語法，而是偵測語意本身

AdapTools 論文閱讀分析：當 Agent 已經不是簡單的文字接龍，Prompt Injection 也開始學會挑工具、換說法、順著任務偽裝自己

近期文章

廣告

文章分類

近期留言

發佈留言取消回覆