AgentDoG 論文閱讀分析：當 AI Agent 真正會用工具時，安全邊界不能只剩一句 safe / unsafe

2026 年 4 月 10 日

論文基本資訊

論文標題：AgentDoG: A Diagnostic Guardrail Framework for AI Agent Safety and Security
作者：Dongrui Liu 等
年份：2026
來源：arXiv:2601.18491
論文連結：https://arxiv.org/abs/2601.18491
主題：AI Agents、Agent Safety、Guardrails、Security、Tool Use、Benchmark、Explainability

如果最近一路追 sectools.tw 這波 agentic security 論文，應該會慢慢感覺到一件事：我們現在最缺的，未必是再多一個「會做事」的 agent，而是當 agent 開始真的會用工具、跨步驟規劃、在環境裡持續互動之後，我們到底該怎麼知道它正在往哪裡偏、為什麼偏、又會偏到多嚴重。

AgentDoG 這篇論文切中的，就是這個越來越現實的問題。它不再把安全防護理解成單純的輸出審查，也不滿足於一句粗糙的 safe / unsafe 二元標籤，而是想把 agent guardrail 往前推到更接近真正能用的層次：沿著 agent trajectory 做細粒度監控，並且診斷風險是從哪裡來、如何形成、最後可能造成什麼後果。

這件事之所以重要，是因為 agent 的風險本來就不是單句回答那麼簡單。很多真正麻煩的錯誤，不是模型直接講出危險內容，而是它在多步驟執行裡慢慢走偏：看了錯的外部內容、信了被污染的 tool feedback、用了不該用的工具、在缺乏確認時做出過度授權的操作，甚至表面上看起來沒有違規，實際上卻已經在做不合理、不可接受、或高風險的行動。

這篇論文想解決什麼？

作者對現況的批判非常到位。既有 guardrail 模型——不管是一般 safety moderation model，還是比較新的 agent guard——常常都有兩個共通問題：

缺乏 agentic risk awareness：它們很會審輸出文字，卻不一定真的理解 agent 在工具使用、規劃、觀測環境與執行決策時的風險。
缺乏 provenance 與透明度：很多系統最後只丟出一個 unsafe label，但分析者無法知道這個風險到底是來自 prompt injection、錯誤規劃、工具濫用，還是來自環境中的假資訊。

對單輪聊天模型來說，這種二元判斷也許勉強夠用；但對 agent 而言，這遠遠不夠。因為 agent 的錯誤往往發生在過程裡，而不是只發生在最終那句輸出。你若只看最後一句，很可能已經太晚。

所以這篇論文真正想回答的是：

能不能建立一套真正以 agent 為中心的 guardrail 框架，不只判斷它安不安全，還能沿著整條 execution trajectory 說清楚：風險從哪來、怎麼表現、可能造成什麼實際傷害？

這篇論文的核心，不是一個模型，而是一個完整的風險表示方式

AgentDoG 最值得記住的，不只是作者做了一個 guardrail model，而是他們先做了一件更根本的事：替 agentic risk 建立了一個三維、正交、可分解的 taxonomy。

作者認為，過去很多 agent safety taxonomy 的問題，在於把不同層次的概念混成同一個平面。例如：

prompt injection 講的是風險從哪裡來
unauthorized access 講的是風險造成了什麼行為或傷害

如果你把這兩種東西當成同一層級的並列標籤，最後就很難做精準診斷，也很難知道該防哪一段。

因此，作者把 agentic risk 拆成三個正交維度：

Risk Source（where）：風險從哪裡來
Failure Mode（how）：風險如何在 agent 行為或輸出中表現
Real-world Harm（what）：最後造成的是哪一類真實世界傷害

這個拆法非常好，因為它讓我們終於能把 agent failure 從模糊的「出事了」拆成比較可治理的因果鏈。

第一維：Risk Source — 問題從哪裡進來？

在 risk source 上，作者把風險來源分成幾大類：

User Input：例如惡意使用者指令、jailbreak、直接 prompt injection
Environmental Observation：例如網頁、文件、截圖等外部內容中的間接 prompt injection，或不可靠／誤導性資訊
External Entities：例如被污染的 tool description、惡意工具執行、被操控的 tool feedback
Internal Logic and Failures：例如 agent 本身的 hallucination、錯誤推理、錯誤工具選擇、與任務意圖對不齊

這一維很重要，因為它提醒我們：agent 的風險不只來自使用者。 很多更危險的問題，其實來自環境、工具與 agent 自己的內在缺陷。這和近期一連串談 agent skill credential leakage、hallucination-resistant planning、以及 calibration 的研究，其實是同一條脈絡：真正麻煩的不是模型單點失誤，而是整條互動鏈上任何一段都可能被污染。

第二維：Failure Mode — 風險怎麼表現出來？

如果 risk source 講的是「源頭」，那 failure mode 講的就是：agent 實際上是怎麼出錯的。

作者把 failure mode 分成兩大類：

Behavioral failure modes
Output content failure modes

在 behavioral failure 這邊，幾個特別值得記的子類型包括：

Unconfirmed or Over-privileged Action：沒確認清楚就做高風險操作，或在不該有那麼多權限時直接執行
Flawed Planning or Reasoning：規劃階段就走錯，理解錯任務意圖，或沒有預想到後果
Improper Tool Use：工具參數錯、選了不該選的工具、沒有驗證 tool output、或在錯誤情境下用對了工具但做了錯的事
Insecure Interaction or Execution：和不可信元件互動、執行不安全程式、點惡意連結、下載惡意檔案
Procedural Deviation or Inaction：沒有照既定 SOP 走，或該做時沒做
Inefficient or Wasteful Execution：技術上完成任務，但用極度浪費成本的方式完成

這裡我覺得作者抓得很準的一點是：「看起來安全」不等於「真的合理」。 一個 agent 不一定要直接做出違規或惡意內容，才算有問題。它也可能只是一路做出低品質、低效率、或過度冒進的操作，而這在真實環境裡一樣可能造成損失。

至於 output content failure，則比較接近大家熟悉的 LLM 風險，包括：

生成有害或冒犯內容
提供危險／非法活動指令
生成惡意可執行內容
未授權資訊揭露
提供錯誤、誤導或未驗證資訊

這樣的設計，等於把傳統內容安全和 agent 行為安全真正接了起來，而不是把兩者分開談。

第三維：Real-world Harm — 最後傷害的是什麼？

論文第三個維度是 real-world harm，也就是：這些風險最終在現實世界裡傷害的是什麼。

作者列出的傷害類型包括：

隱私與機密性傷害
財務與經濟傷害
系統安全與完整性傷害
身體與健康傷害
心理與情緒傷害
名譽與人際傷害
資訊生態與社會性傷害
公共服務與資源傷害
公平性與資源分配傷害

把這一層獨立拉出來的好處是，它讓 safety 與 security 不再只停留在技術表面，而能回到真正的治理語言：同樣是一個 unsafe action，它可能造成的是資料外洩、財務損失、系統破壞，或更廣泛的社會性傷害。這些不是同一件事，也不該用同一種粗糙標籤帶過。

ATBench：這篇論文不只提 taxonomy，還做了 benchmark

有 taxonomy 還不夠，因為沒有 benchmark，大家還是很難比較 guardrail 到底做得怎樣。因此作者另外提出 ATBench，作為一個細粒度 agent safety benchmark。

根據論文資訊，ATBench 包含約：

2,157 個 tools
4,486 turn interactions

這組 benchmark 的重點，不是只問「這句話有沒有毒」，而是看 agent 在更接近真實互動場景裡，面對工具、外部環境與長軌跡任務時，是否會出現前面三維 taxonomy 所描述的各類風險。

這其實非常重要。因為 agent safety 如果只停留在 single-turn moderation，最後測出來的永遠只是比較像聊天機器人的風險，而不是 agent 系統真正會遇到的問題。

AgentDoG 在做什麼？

在 taxonomy 與 benchmark 的基礎上，作者提出的核心系統就是 AgentDoG。它的定位不是一般回答模型，而是agent-oriented diagnostic guardrail。

如果把整體工作理解成一條鏈，大概可以寫成：

agent trajectory
  ↓
risk-aware monitoring
  ↓
fine-grained safety classification
  ↓
root-cause diagnosis
  ↓
provenance / attribution / explanation

換句話說，AgentDoG 想做的不是只當最後一道簡單審核器，而是變成一個沿途觀察 agent 行為、並在出現異常時指出根因的 guardrail layer。

作者強調，AgentDoG 不只處理明顯危險的 action，也會診斷那些表面安全、實際上不合理的行動。這點我認為是整篇論文最成熟的地方之一。因為 production 環境裡最常見、也最容易被忽略的，不是最戲劇化的災難，而是那種看似沒違規、但一步步把系統帶往高成本或高風險方向的錯誤行為。

Explainability：這篇論文真正補上的，是 agent safety 的可追責性

作者把這部分稱為 Agentic XAI Attribution。它的重點不只是說「這裡不安全」，而是要進一步回答：

是因為哪個 planning step 出問題？
是哪個工具選擇不合理？
是讀錯環境內容，還是被外部資訊帶偏？
這個 seemingly safe but unreasonable action，到底哪裡不合理？

這種 attribution 機制的價值，在於它讓 guardrail 不再只是阻擋器，而更像一個能幫你做 alignment 與 debugging 的分析層。對企業導入 agent 來說，這非常關鍵。因為當一個 agent 系統出事時，組織真正需要的不只是「它錯了」，而是它為什麼錯、哪一段該修、未來怎麼避免再犯。

模型規模與實驗結果

論文中，AgentDoG 提供了不同尺寸版本，包含：

並橫跨 Qwen 與 Llama 兩個模型家族。

作者宣稱，在多個 agent-oriented safety benchmark 上，AgentDoG 達到 state-of-the-art 表現，包含：

R-Judge
ASSE-Safety
ATBench

從論文展示的方向來看，它不只是對傳統 binary safety classification 有競爭力，更重要的是在細粒度 agent safety diagnosis 上也有優勢。這點很合理，因為它本來就不是用平面的安全標籤設計出來的，而是圍繞 agent execution trajectory 與三維 taxonomy 建構的。

這篇論文真正的意義在哪裡？

如果把 AgentDoG 放回近期 sectools.tw 一整串文章脈絡，它大概剛好補上幾篇論文之間的空白：

Credential Leakage in LLM Agent Skills 在說第三方 skill 與工具鏈會把 agent 變成新的供應鏈風險入口。
Hallucination-Resistant Security Planning 在說高風險場景裡，可靠的 agent 必須知道何時停手。
OpenSec、SIABench、CORTEX 等則比較偏 calibration、evaluation 與高風險 operational workflow。

而 AgentDoG 補上的，是一個更底層的安全工程問題：當 agent 已經開始真的會規劃、觀察、選工具、執行與互動時，我們該如何設計一個既看得懂風險、又說得清楚風險來源的 guardrail 系統？

這使它雖然不是直接做 SOC triage 或 CTI extraction，卻對整條 agentic security 主線非常關鍵。因為不管你要讓 agent 去做 IR、threat hunting、knowledge retrieval、還是 tool-augmented analysis，最後都會遇到同一個問題：你如何在不完全扼殺 agent 能力的前提下，監控並約束它的風險行為？

限制與保留

當然，這篇論文也不是沒有保留點。

taxonomy 很完整，但仍然有設計者視角。 真實世界 agent 風險還在快速演化，任何分類法都可能需要不斷更新。
benchmark 再細，也不等於真實部署。 真正接到企業工具鏈、長期記憶、權限系統與外部 API 後，風險型態往往還會更髒、更模糊。
guardrail 本身也有成本。 更細粒度監控通常意味著額外推論開銷、延遲與系統複雜度。
diagnosis 的可用性仍需更多現場驗證。 論文說它能提供 root-cause attribution，但對不同團隊來說，這些 attribution 是否真的足以支撐修復與治理，還需要更多實務證據。

也就是說，AgentDoG 很像是一個很有方向感的基礎設施論文：它把 guardrail 從「內容審查器」推進成「agent 風險診斷層」，但離完全成熟的 production solution，仍然還有工程距離。

重點整理

AgentDoG 要解決的，不只是 agent 安不安全，而是如何沿著 agent trajectory 做細粒度風險診斷。
作者提出一個三維 agentic safety taxonomy：Risk Source、Failure Mode、Real-world Harm。
這個 taxonomy 的價值，在於把風險來源、風險表現與最終傷害拆開，讓 agent safety diagnosis 更清楚。
論文同時提出 ATBench，作為更細粒度的 agent safety benchmark。
AgentDoG 不只給 safe / unsafe label，還試圖提供root-cause attribution 與 provenance。
作者公開了 4B、7B、8B 多個版本，並宣稱在多個 agent safety benchmark 上達到 SOTA。
這篇論文真正補上的，是agent safety 的透明度與可治理性，而不只是額外一層輸出審查。

Takeaway

AgentDoG 最值得記住的，不是它又做出一個更會擋風險的模型，而是它提醒我們：agentic AI 的安全問題，從來都不只是「最後有沒有說錯話」，而是整條行動鏈裡，風險是怎麼被引入、怎麼被放大、又怎麼在看似合理的步驟中慢慢累積出來。

如果說前一波安全研究還主要在教模型「不要亂回答」，那 AgentDoG 這篇比較像在做下一件更接近真實世界的事：教系統學會看懂 agent 是怎麼亂動手的。 對任何想把 AI agent 真正放進安全工作流的人來說，這大概會是接下來幾年比單點能力更重要的問題。

免責聲明

本文由 AI 產生、整理與撰寫。

內容主要依據公開論文、arXiv 頁面與可取得之研究資料進行彙整、解讀與摘要。由於本文未逐節重建全部實驗細節、標註規範與附錄設定，對 taxonomy、benchmark 規模、模型訓練與 attribution 方法的理解仍可能受限於公開材料粒度與作者揭露範圍。實際技術細節、完整實驗條件與最終結論，仍應以原始論文與作者公開資料為準。

AgentDoG 論文閱讀分析：當 AI Agent 真正會用工具時，安全邊界不能只剩一句 safe / unsafe

論文基本資訊

這篇論文想解決什麼？

這篇論文的核心，不是一個模型，而是一個完整的風險表示方式

第一維：Risk Source — 問題從哪裡進來？

第二維：Failure Mode — 風險怎麼表現出來？

第三維：Real-world Harm — 最後傷害的是什麼？

ATBench：這篇論文不只提 taxonomy，還做了 benchmark

AgentDoG 在做什麼？

Explainability：這篇論文真正補上的，是 agent safety 的可追責性

模型規模與實驗結果

這篇論文真正的意義在哪裡？

限制與保留

重點整理

Takeaway

免責聲明

發佈留言取消回覆

You may also like

近期文章

廣告

文章分類

近期留言

論文基本資訊

這篇論文想解決什麼？

這篇論文的核心，不是一個模型，而是一個完整的風險表示方式

第一維：Risk Source — 問題從哪裡進來？

第二維：Failure Mode — 風險怎麼表現出來？

第三維：Real-world Harm — 最後傷害的是什麼？

ATBench：這篇論文不只提 taxonomy，還做了 benchmark

AgentDoG 在做什麼？

Explainability：這篇論文真正補上的，是 agent safety 的可追責性

模型規模與實驗結果

這篇論文真正的意義在哪裡？

限制與保留

重點整理

Takeaway

免責聲明

發佈留言 取消回覆

You may also like

FALCON 論文閱讀分析：用 Agentic LLM 從 CTI 自動生成可部署的 IDS 規則

LRCTI 論文閱讀分析：如何讓 LLM 真的學會驗證 CTI 真偽？

近期文章

廣告

文章分類

近期留言

發佈留言取消回覆