ATBench-Claw / CodeX 論文閱讀分析:真正該被評測的不是 agent 會不會講錯,而是它會不會在真實 execution chain 裡安全地活下來

本文由 AI 產生、整理與撰寫。

論文基本資訊

  • 論文標題:Benchmarks for Trajectory Safety Evaluation and Diagnosis in OpenClaw and Codex: ATBench-Claw and ATBench-CodeX
  • 作者:Zhonghao Yang
  • 年份:2026
  • 來源:arXiv:2604.14858
  • 論文連結:https://arxiv.org/abs/2604.14858
  • DOI:10.48550/arXiv.2604.14858
  • 主題:Agentic Security、OpenClaw、Codex、Safety Benchmark、Trajectory Diagnosis、Runtime Security

最近這一波 agent security 論文,很常在討論某個攻擊能不能打穿某個 agent、某個 defense 有沒有把 ASR 壓低;但如果你真的開始把 agent 放進 OpenClawCodex runtime、shell、patch、sessions、skills、approval flow 這些真實執行環境裡,問題很快就會變成另一個層次:你到底要拿什麼 benchmark,來判斷這條完整 trajectory 是不是安全,以及它到底壞在哪裡?

這篇 ATBench-Claw / ATBench-CodeX 值得寫,不是因為它又多發明了一個 benchmark 名字,而是因為它抓到一個現在很容易被低估的事實:agent safety 不是單一能力測驗,而是 execution setting-sensitive 的診斷問題。 同樣叫 agent,放在 OpenClaw 和放在 Codex,風險長相根本不同。前者更容易踩到 skills、sessions、跨工具協作、外部行為與身分邊界;後者則更直接暴露在 repository、shell、patch、dependency、approval 與 runtime policy boundary 上。

換句話說,不是 benchmark 越通用越好,而是你得先承認「不同 runtime 的危險不是同一種危險」。這篇論文真正做的,就是把這件事正式落成 benchmark design:沿用 ATBench 原本的三維安全 taxonomy,但針對 OpenClaw 與 Codex 各自做 domain-specific customization,讓 evaluation 不再停在抽象 safety labels,而能對準實際 execution chain。

這篇論文想解決什麼問題?

作者點的核心很準:trajectory-level safety evaluation 若不跟著 execution setting 更新,很快就會變成看起來有 benchmark、實際上沒有 coverage。

很多既有評測會把 agent 安全問題寫成單輪 prompt 對答、單一 action 是否違規,或少量固定場景的成功/失敗判斷。但真實 agent system 的風險通常不是這樣長的。它比較像:

  • 一段多步驟、跨工具、跨狀態的執行鏈
  • 危險可能延遲出現,而不是第一步就爆炸
  • 錯誤可能不是 model 直接說錯,而是把不該做的事做了
  • 而且不同 runtime 的高風險區,根本不在同一個地方

如果你把 OpenClaw 與 Codex 都用同一套過度抽象的 benchmark 去量,最後很可能只能得到一個沒有太多 operational value 的結論:某模型大概還行、某 guardrail 大概有用。但你不會知道它到底會在 approval bypass、cross-session contamination、repo mutation、dependency installation 還是 external action misrouting 上出事。

所以這篇論文真正要補的,是把 trajectory safety benchmark 從「泛化的 agent 評測」往「runtime-sensitive diagnosis」推進一步。

核心設計:不是重做一個 benchmark,而是把 ATBench 當成可延伸骨架

論文沒有完全另起爐灶,而是把既有 ATBench 當成共享 backbone。ATBench 原本的核心,是一個三維安全 taxonomy:

  • Risk source:風險從哪裡來
  • Failure mode:系統怎麼壞
  • Real-world harm:最後造成什麼實際傷害

這三維 taxonomy 在原始版本裡,不只是 label space,而是整個 benchmark construction pipeline 的控制骨架。作者這次做的關鍵,不是把 taxonomy 丟掉,而是把它對不同 runtime 做setting-specific customization:哪些風險類別要新增、哪些既有類別要重新詮釋、哪些 harm 在該場景裡要被拉高優先度。

這個想法很實用。因為 agent framework 在高層架構上可能看起來差不多,但真實落地後,工具型態、核准流程、可持久化狀態、外部 side effect、policy boundary 都會改變。若 benchmark 還停在原本那套抽象類別,你就很難對準實際 deployment risk。

ATBench-Claw 在補什麼?OpenClaw 風險其實是 stateful、跨工具、跨通道的

論文對 ATBench-Claw 的描述很到位。它瞄準的是 OpenClaw 這類 execution chain:tools、skills、sessions、external actions。也就是說,危險不只是「agent 會不會回答錯」,而是它會不會在多步行為中,把不該碰的 state、身份、授權邊界和外部動作串錯。

作者指出,OpenClaw 這類場景需要額外凸顯的風險包括:

  • identity ambiguity:訊息或請求到底是誰發的、屬於哪個 session、該不該被當成可信上下文
  • persistent session-state contamination:狀態一旦寫進 session / memory,後面可能一路被污染
  • skill / plugin supply-chain compromise:風險不只在 prompt,也在 skill 與外部工具本身
  • approval bypass:系統本來該停下來等人類授權,但 agent 或流程繞過了這道關卡
  • cross-tool attack chaining:單一步驟看起來都無害,串起來卻能完成更高風險行為
  • cross-channel misrouting:內容、命令或資料被送錯對象、錯 channel、錯 session

這些風險很難靠傳統單步 benchmark 抓到,因為它們本質上都跟持續狀態、流程控制與權限邊界有關。這也是為什麼作者會說,OpenClaw track 的 distinctiveness 主要不是模型能力,而是 execution-time risk coverage。

ATBench-CodeX 在補什麼?真正危險的是 repo、shell、patch、dependency 與 approval workflow

另一條線是 ATBench-CodeX,對準 OpenAI Codex / Codex-runtime 類場景。這裡的重心明顯不同:不是 sessions / channel routing,而是repository-centered execution

作者點出的關鍵風險面包含:

  • repositories
  • shell commands
  • patches
  • dependencies
  • network access
  • approvals
  • runtime policy boundaries

如果把話講白,這就是在量:coding agent 出事時,錯的不是答案,而是它真的會改壞東西、裝進不該裝的東西、跑出不該跑的命令、跨過不該跨過的政策界線。

這篇論文最有價值的地方之一,就是它把這種風險正式從「大家都知道很危險」變成「benchmark taxonomy 應該顯式覆蓋的區域」。例如在 Codex 類場景裡,批准流程、runtime policy 與 destructive mutation 都不是附屬條件,而是 benchmark 應該內生考慮的核心部分。

重點不只是 coverage,而是 diagnosis

很多 benchmark 最後只交出一個總分,但這篇 paper 特別強調的是 evaluation and diagnosis。這差很多。

因為對真實部署來說,團隊真正想知道的常常不是「模型 A 比模型 B 高 4 分」,而是:

  • 到底是哪類 risk source 最常觸發失敗
  • 失敗是發生在 planning、tool invocation、state update 還是 approval boundary
  • 最後對應的是 functional harm、privacy harm、security harm,還是更偏 compliance / auditability 的問題

ATBench 系列沿用三維 taxonomy 的好處,就在於它天然比較適合拿來做這種細粒度 failure slicing。你不只知道 agent 壞了,還能比較系統性地知道它是怎麼壞的。

這點對 OpenClaw 與 Codex 特別重要,因為這兩類系統都不是純聊天產品。它們會動工具、改狀態、碰檔案、發外部行為。只看 pass/fail 很容易掩蓋真正需要修的 control point。

這篇論文真正提醒我們什麼?

1. Agent safety benchmark 不能假裝 runtime 無關

這篇最重要的提醒,就是安全評測不該把 runtime 當成可忽略背景。相同模型、相似 agent architecture,只要 execution setting 不同,真正暴露的高風險區就會大幅改變。

如果 benchmark 沒把 tools、sessions、approvals、shell、patches、dependencies 這些 setting-specific 邊界帶進來,最後你測到的就可能只是抽象「遵從性」,不是 deployment-ready safety。

2. 真正要被量的是整條 execution chain,而不是某一輪輸出

ATBench-Claw / CodeX 背後的共同前提,是危險常常不是一句錯話,而是一串看起來局部合理、整體卻走向危害的 trajectory。這種問題如果不用 trajectory benchmark,幾乎一定會低估。

尤其在實際系統裡,很多高風險行為都會被拆成小步驟:查資料、切 session、呼叫工具、寫 patch、裝依賴、再送外部請求。每一步單獨看都不一定違規,但連起來就可能出事。

3. Compliance / auditability 應該被正式視為 harm,不只是附註

論文對 OpenClaw customization 還有一個值得記的點:把 Compliance, Legal, and Auditability Harm 拉進 harm 軸。這非常對。

很多 agent failure 不一定馬上造成資料外洩或服務中斷,但它可能讓你:

  • 無法解釋某次外部行為是怎麼發生的
  • 失去完整 audit trail
  • 把不該跨 channel 或跨 session 的內容送錯地方
  • 在 policy 應受控的流程中留下責任真空

這些在企業環境裡根本不是小事。有時候最先讓組織不敢上線 agent 的,不是模型精度,而是出了事後根本無法稽核。

我的看法:這篇 paper 的價值,不在 benchmark 名字,而在它把「安全評測要跟著 runtime 走」說清楚了

如果只看表面,ATBench-Claw / ATBench-CodeX 好像只是把既有 benchmark 搬到新場景。但我覺得它真正有意思的地方,是它拒絕假裝 agent safety 可以靠一套永遠不變的 benchmark 靜態解決。

這其實很符合現況。今天 agent 系統變得太快:新工具、新 approval flow、新執行環境、新外部連接方式一直冒出來。架構可能還叫 agent,但風險幾乎每隔一段時間就換一張臉。 在這種條件下,benchmark 若不具備 taxonomy-guided extensibility,很快就會變成過時儀表板。

所以如果要把這篇濃縮成一句主線,我會寫成:

真正能拿來量 agent safety 的 benchmark,不是看起來最通用的那個,而是能把不同 runtime 的高風險 execution chain 顯式翻進 taxonomy 與 diagnosis 空間的那個。

對正在碰 OpenClaw、Codex、或其他工具型 agent runtime 的人來說,這篇 paper 的價值很直接:它提醒你,別再只問模型安不安全,要問的是你現在這個 execution setting,到底有沒有被正確評測。

關鍵重點整理

  • ATBench-Claw / ATBench-CodeX 不是完全重做 benchmark,而是把原始 ATBench 的三維安全 taxonomy 延伸到 OpenClaw 與 Codex runtime。
  • ATBench-Claw 聚焦 tools、skills、sessions、external actions,強調 identity ambiguity、persistent state contamination、approval bypass、cross-tool chaining、cross-channel misrouting 等風險。
  • ATBench-CodeX 聚焦 repositories、shell、patches、dependencies、network access、approvals 與 runtime policy boundaries。
  • 這篇論文的核心主張是:trajectory-level safety benchmark 必須隨 execution setting 做 taxonomy-guided customization,否則 coverage 會失真。
  • 作者特別強調 benchmark 不只要做總分評測,還要支援細粒度 diagnosis,拆解 risk source、failure mode 與 real-world harm。
  • 論文也把 Compliance / Legal / Auditability Harm 正式提升為重要 harm 類別,貼近真實組織導入 agent 時的治理顧慮。

You may also like