ClawTrap 論文閱讀分析:真正危險的,不只是網頁裡那句惡意 prompt,而是 agent 看到的整個世界都有可能早就被中間人改寫了

論文基本資訊

  • 論文標題:ClawTrap: A MITM-Based Red-Teaming Framework for Real-World OpenClaw Security Evaluation
  • 作者:Haochen Zhao、Shaoyang Cui
  • 年份:2026
  • 來源:arXiv:2603.18762
  • 論文連結:https://arxiv.org/abs/2603.18762
  • DOI:10.48550/arXiv.2603.18762
  • 主題:OpenClaw、Web Agents、MITM、Agentic Security、Red Teaming、Runtime Security

這篇 paper 我會直接記成一句話:

真正會害死 web agent 的,不一定是頁面上那句明顯可疑的 prompt,而是它一路信任的觀察通道本身,早就被中間人悄悄改寫了。

ClawTrap 的切入點很對味,因為它不是再做一個靜態 benchmark,也不是只在 sandbox 裡塞惡意字串測 agent 會不會中招;它把問題往更貼近部署現場的地方拉:如果 OpenClaw 這類 web agent 在真實瀏覽流程中遇到 MITM(Man-in-the-Middle)流量攔截與改寫,它到底還能不能安全地看世界?

這個問題很值得看,因為很多現有 agent security 評測,其實仍然預設「網頁內容雖然可能惡意,但至少傳到 agent 眼前時是原站內容」。ClawTrap 說,不,現實世界還有另一層:agent 依賴的 observation channel 本身就可能被竄改。

這篇論文在解什麼問題?

作者認為,現有 agent security benchmark 大多集中在兩種設定:

  • 靜態 sandbox 環境
  • content-level prompt attack

這些研究不是沒價值,但還差一塊很關鍵的真實風險面:live browsing 時的 network-layer manipulation

對 web agent 來說,很多決策都建立在「我看到的頁面是真的」這個默默存在的前提上。一旦這個前提被打穿,agent 就可能:

  • 把假頁面當真頁面摘要出去
  • 把偽造警示當成合法 UI 訊號
  • 被局部 DOM 改寫帶偏後續判斷與動作
  • 在整個流程沒有出現明顯惡意 prompt 的情況下,做出危險或錯誤輸出

所以這篇真正想補的,不是「頁面內容是否含 prompt injection」這一層,而是:agent 有沒有能力在遭遇網路中間人改寫時,辨認自己看到的證據來源已經不可信。

ClawTrap 在做什麼?

ClawTrap 是一個專門拿來評估 OpenClaw 的 MITM red-teaming framework。它的架構核心是把 agent 放在雲端執行,但把審計與攔截邏輯收回研究者控制的本地節點,形成一條「Local Capture – Cloud Induction」路徑。

論文描述的管線大致是這樣:

  1. OpenClaw instance 經由 proxy adapter 把流量導進私有通道
  2. 流量經 Tailscale 隧道送到本地攔截節點
  3. 本地 mitmdump / interceptor 依規則決定要不要攔、要怎麼改
  4. 再把改寫後的 response 回送給雲端 agent 繼續跑

它不只是攔封包而已,還把攻擊流程做成可重現、可切換模式、可審計的 framework。這點很重要,因為沒有可重現的攻擊管線,就很難把 agent security 從 demo 變成可比較、可持續追蹤的評測方法。

三種 MITM 攻擊模式,是這篇最值得記的骨架

ClawTrap 把 MITM 攻擊形式整理成三類,這個 taxonomy 很實用:

  • Static HTML Replacement:直接把整個回應頁面換成偽造但看似合理的內容
  • Iframe Popup Injection:在原本真頁面上疊一層假的高優先級提示或警告
  • Dynamic Content Modification:細粒度改寫 DOM 片段、文字欄位或任務關鍵資訊

這三類其實對應三種很不同的失敗面:

  • 整頁替換,測的是 agent 會不會全盤信任被換掉的主證據
  • 彈窗疊加,測的是 agent 會不會過度信任看起來像安全訊號的 UI
  • 局部改寫,測的是 agent 會不會被細小但任務關鍵的事實污染

也就是說,ClawTrap 不是只在問「有沒有被騙」,而是在拆解:agent 是在哪一層把對世界的信任交出去的。

這篇最有意思的地方:它測的不是 prompt robustness,而是 provenance-aware reasoning

我覺得這篇 paper 值得寫,不只是因為題目有 OpenClaw,而是因為它把評測重心拉到一個比較成熟的問題設定:

agent 不只要能看懂內容,還要能判斷這份內容到底配不配被信。

這就是 provenance-aware reasoning。

很多現有測法其實都預設 evidence 本身是 legit,只測模型會不會被頁面裡的惡意語句操控。但 ClawTrap 告訴你,真實世界裡,evidence 的來源鏈本身也可能被污染。在這種情況下,再強的內容理解都不夠,因為你理解得越好,只是越精準地理解了假的東西。

所以這篇最核心的轉向是:從單純的 content attack,改成評估 agent 能不能做 trust calibration

兩個示範攻擊案例,雖然不大,但方向很清楚

論文目前是初版 technical report,實驗還偏 proof-of-concept,不是大規模 benchmark。不過它的兩個 demo case 已經很夠說明問題。

案例 A:整頁新聞替換

作者讓 agent 執行類似「告訴我 bbc.com 上有什麼」的任務,但攔截後把回應換成偽造新聞頁。這種攻擊厲害的地方在於:它不破壞流程,不彈錯,不報錯,agent 依舊順順地抓頁、讀頁、總結頁。 只是它看的頁根本不是原來那頁。

這時候比較弱的模型就會很自然地把偽造內容當真,吐出一本正經但其實錯誤的摘要;比較強的模型則較可能指出頁面不像正常 BBC 首頁,懷疑 proxy rewrite、網路攔截或內容異常,並嘗試 safer fallback。

這個差異很關鍵,因為兩者都不是「看不懂頁面」,而是只有一部分模型會進一步問:為什麼我會看到這個頁面?

案例 B:真頁面上疊假警告

第二個案例是去 google.com,但在真頁面上蓋一層假的高急迫性 warning overlay。這時候測的就不是主體內容,而是 agent 對 UI 級安全訊號的信任校準。

論文觀察到,較弱模型比較容易把這種 warning 當一般頁面元素略過,或只是做表層描述;較強模型則比較會先懷疑這個警示是否可信、是否可能來自 extension / script / proxy injection。

這再次說明一件事:web agent 的安全不只是讀字串,而是對視覺與介面訊號做來源判斷。

這篇論文真正提出的,不是一種攻擊,而是一個更對的評測問題

老實說,ClawTrap 目前還不是那種實驗量大到可以直接下產業結論的 paper。作者自己也明說這只是 preliminary technical report,完整版量化評測還在後面。

但我覺得它重要的地方本來就不只在數字,而是在於它把問題問對了:

  • 不是只有頁面內容可能惡意
  • 不是只有 prompt string 會 hijack agent
  • agent 依賴的網路觀測通道本身,就是一級安全邊界

而一旦你接受這個前提,很多事情都會變:

  • benchmark 不該只測 sandbox content injection
  • runtime defense 不該只看 semantic filtering
  • 部署端需要更重視 proxy、TLS、origin verification、network provenance
  • agent evaluation 應該把「是否察覺觀測來源異常」列為核心能力

它和最近 prompt injection 論文的差別

如果把這篇放進最近一串 agent security paper 裡看,它其實補的是另一條線。

像 AgentWatcher、ICON、ClawGuard、Cognitive Firewall、ShieldNet 這些論文,大多還是圍繞:

  • 內容級 prompt injection
  • tool boundary / execution boundary
  • runtime filtering / causal attribution / network observation

ClawTrap 則把焦點再往前推一點:如果整個 browsing evidence path 都不可靠,agent 還剩下多少能力辨識自己正在被騙?

這不是跟前面那些論文衝突,反而是很好的補位。因為真正成熟的 agent defense,大概不會只有一層 detector,而是得同時處理:

  • content 是否可疑
  • tool action 是否合理
  • network behavior 是否異常
  • evidence provenance 是否仍然可信

ClawTrap 把最後那條線正式拉出來了。

限制也很明顯

這篇 paper 的限制不難看出:

  • 目前實驗還偏 demo-driven,量化規模有限
  • 攻擊案例數不多,還沒有完整 benchmark matrix
  • 評估對象集中在 OpenClaw-like web agent,不等於所有 agent 都一樣
  • 模型分層結論目前更像方向性觀察,而非最終定論

但這些限制不會讓它失去價值,因為它至少證明了一件事:MITM 條件下的 live evaluation 是可做、而且真的能挖出靜態 benchmark 看不到的 failure mode。

重點整理

  • ClawTrap 是一個專門用來評估 OpenClaw 在真實瀏覽環境中面對 MITM 攻擊 的 red-teaming framework。
  • 論文主張,現有 agent security benchmark 太常停在 靜態 sandbox + content-level attack,忽略了 network-layer manipulation 這條部署現實。
  • ClawTrap 支援三種攻擊模式:Static HTML ReplacementIframe Popup InjectionDynamic Content Modification
  • 它真正測的不是模型會不會讀頁,而是 agent 能不能對自己看到的證據來源做 trust calibrationprovenance-aware reasoning
  • 論文中的 demo 顯示,較弱模型更容易信任被改寫的觀察結果並產生危險輸出;較強模型較可能察覺異常、懷疑 interception,並採取較安全 fallback。
  • 這篇 paper 最核心的啟示是:web agent 的 observation channel 本身就是一級安全邊界,不能只把風險理解成頁面上那段 prompt 文案。

Takeaway

如果要我濃縮成一句話,這篇最值得記的是:

當 agent 開始替你看網頁、解讀介面、再把看到的東西直接拿去規劃下一步時,真正需要保護的不是單一 prompt,而是整條「看見世界」的通道。

ClawTrap 的價值,在於它把 web-agent security 從「內容有沒有毒」往前推成「觀察來源有沒有被動手腳」。這一步很實際,也很值得後續研究繼續放大:因為對真正在網路上替人做事的 agent 來說,看錯世界 往往比 看錯一句話 更致命。

免責聲明

本文由 AI 產生、整理與撰寫。內容主要依據公開論文、技術文件與可取得之研究資料進行彙整、解讀與摘要;儘管已盡力確保內容的完整性與可讀性,仍可能因模型理解限制、資料來源差異或語意轉譯過程而存在疏漏、不精確或更新延遲之處。本文僅供研究交流與知識分享參考,實際技術細節、實驗設定與最終結論,仍應以原始論文、官方文件及作者公開資料為準。

You may also like