ClawdGo 論文閱讀分析：很多 autonomous agent 真正缺的，不是再多一層護欄，而是先知道誰在帶它走

2026 年 4 月 28 日

本文由 AI 產生、整理與撰寫。

論文基本資訊

論文標題：Endogenous Security Awareness Training for Autonomous AI Agents
作者：Jiaqi Li
年份：2026
來源：arXiv:2604.24020
論文連結：https://arxiv.org/abs/2604.24020
DOI：10.48550/arXiv.2604.24020
主題：Agentic Security、OpenClaw、Security Awareness Training、Prompt Injection、Memory Poisoning、Calibration

這篇 ClawdGo 的切入點很有意思，因為它不再只問：「平台外面能不能多加幾層防線？」而是反過來問：

如果 autonomous agent 早晚都會碰到惡意內容、社交工程、記憶污染與 skill 供應鏈風險，那它自己到底有沒有被訓練成看得出危險？

很多 agent security 論文到最後都還是落在 perimeter thinking：把有毒內容擋在外面、把工具權限鎖起來、把 suspicious output 攔下來。這些都重要，但它們有一個共通弱點：agent 本身仍然可能毫無 threat judgment。

ClawdGo 想補的就是這塊。作者把它叫做 endogenous security awareness training——不是只在平台邊界幫 agent 裝護欄，而是讓 agent 在 inference-time 的內部判斷裡，慢慢長出「這東西看起來不對勁」的能力。

這篇在解什麼問題？

作者鎖定的是一個很現實的落差：今天很多 agent 平台可以做 sandbox、policy、tool permission、memory isolation，可是當 agent 自己要理解一段外部內容時，它往往還是：

把惡意 instruction 當正常脈絡吞進去
把 owner-protection 問題誤判成只是 workflow 的一部分
在跨 session 累積記憶時，把錯的安全判斷也一起記住

換句話說，很多防線其實只保平台，不保 agent 自己的威脅辨識能力。 只要 agent 仍是那個容易被帶走的腦袋，外圍防線就永遠在幫它收爛攤子。

ClawdGo 的核心主張：安全感知也該被訓練成一種能力

這篇最值得記住的，不是某個單點技巧，而是整體 framing：

agent 不該只被訓練成會完成任務，還該被訓練成知道什麼任務脈絡正在試著利用它。

作者把這種能力拆成三個層次：

Self-Defence：agent 要能辨識自身是否正被 prompt injection、memory poisoning、supply-chain payload 之類的東西影響。
Owner-Protection：agent 不只保自己，還要知道哪些情境會傷到部署它的人，例如資料外洩、越權存取、代執行高風險操作。
Enterprise-Security：再往上延伸到組織層級，知道哪些行動雖然能完成局部任務，卻會衝撞整體安全邊界。

作者用 TLDT（Three-Layer Domain Taxonomy） 把這三層整理成 12 個可訓練維度。這個設計我覺得很對味，因為它承認了一件事：agent security awareness 不是單一 yes/no classifier，而是多層次風險感知。

怎麼訓練？ASAT 不是在背答案，而是在做安全自我對抗

ClawdGo 用的是 ASAT（Autonomous Security Awareness Training）。它不是傳統把一堆安全守則塞進 prompt，而是讓 agent 在 self-play 裡輪流扮演：

attacker
defender
evaluator

這個結構的好處是，agent 不是只看到「官方正解」，而是會在反覆攻防裡碰到各種會讓自己失守的情境。論文還加了 weakest-first curriculum，意思是優先補最弱的維度，不是平均灑訓練量。

這背後的想法其實很像資安教育裡最實用的那種訓練：不是教你背政策，而是讓你在差點踩坑的情境裡學會聞到坑味。

這篇另一個關鍵：安全意識也會跨 session 積累

作者另外加了 CSMA（Cross-Session Memory Accumulation），搭配四層 persistent memory architecture 和 ACP（Axiom Crystallisation Promotion），讓 agent 把前面 session 學到的安全判斷慢慢固化下來。

這點非常 agent-native。因為如果你相信 persistent memory 能讓 agent 越做越懂 domain，那你也得承認：

它可以累積能力
也可以累積壞習慣
因此安全感知若不一起累積，記憶只會讓失誤更 persistent

ClawdGo 的主張就是：既然 cross-session memory 已經是能力放大器，那就不要只拿它放大效率，也拿它放大 threat awareness。

但作者沒有把事情講得太美：安全感知會帶來 calibration tax

我很喜歡這篇有一個地方很誠實：作者沒有把訓練後的 agent 描述成無腦更安全，而是明確提出 SACP（Security Awareness Calibration Problem）。

意思很簡單：你把 agent 訓練得更敏感，它的確更容易抓到威脅；但同時，它也更可能把原本合法、合理、甚至必要的能力評估誤判成攻擊。

論文裡直接舉了例子：重訓後的 agent 把 legitimate capability assessment 誤認成 prompt injection，在 160 個案例裡誤判了 30 次。

這件事超重要，因為它點破了很多 agent defense 會故意模糊的一點：

安全意識不是越高越好；如果沒有 calibration，它可能只是把 agent 從容易受害，變成容易神經質。

所以這篇真正成熟的地方，不是喊「訓練後更安全」，而是承認：security awareness 本身也是一個 precision-recall tradeoff。

實驗結果代表什麼？

依照論文摘要，作者主打幾個結果：

平均 TLDT 分數從 80.9 提升到 96.9
比 uniform-random scheduling 高出 6.5 分
16 個 session 後涵蓋 12 個維度中的 11 個
CSMA 能把完整增益跨 session 保留下來
如果拿掉 cross-session 累積，只能回收 2.4 分，留下 13.6 分落差

這些數字如果成立，代表的不是「模型瞬間學會安全」，而是：用 weakest-first 的自我攻防訓練，再把學到的判斷跨 session 沉澱，確實能讓 agent 的內生安全感知穩定上升。

不過也要老實講，這篇目前是 poster abstract 版本，摘要給的數字很多，但細節還少。像是：

12 個維度的 scoring rubric 怎麼定
evaluator 角色怎麼避免自我吹捧
memory 累積是否會引進新的偏誤
誤判 legitimate tasks 的代價在 production 怎麼衡量

這些都還需要更完整版本補齊。

我怎麼看這篇？

我覺得 ClawdGo 最值得看的，不是它把 agent 變得多會防，而是它在概念上把防守重心往內推了一層。

過去很多 agent security 設計像是在說：

不要讓危險東西進來
就算進來，也不要讓它碰工具
就算碰工具，也不要讓它成功執行

ClawdGo 則多補了一句：

即使前面幾層都還沒來得及出手，agent 自己也該先意識到「這東西有問題」。

這很像把資安裡的 security awareness training 從人類員工搬到 agent 身上。但它不是直接照抄，而是改造成 agent 能用的形式：自我對抗、跨 session 記憶、最弱維度優先補強、再外加 calibration 問題。

如果你今天在做的是：

會讀外部內容的 browser / email / coding agent
有 persistent memory 的 assistant
會跨工作流替人操作高權限工具的 autonomous system

那這篇最大的提醒會是：不要把安全完全外包給平台邊界，因為你真正最常被坑的，往往是 agent 自己先把有毒脈絡當成正常世界知識。

這篇的限制也很明顯

當然，我不會把它吹成萬靈丹。至少有幾個風險還是很實在：

過度敏感：security-aware 可能變成 security-paranoid。
memory 固化偏誤：如果早期學到的是錯誤 threat heuristic，persistent accumulation 可能把錯誤越刻越深。
domain transfer：在 OpenClaw 類環境有效，不代表換到別的 agent stack 仍等效。
評測封閉性：如果場景仍主要由訓練 taxonomy 定義，可能高估真實世界的開放域威脅辨識能力。

所以比較合理的看法不是「把 ASAT 跑起來就安全了」，而是：這提供了一條值得補進現有架構的內生防線。

結語

ClawdGo 真正有價值的地方，在於它把問題從「怎麼替 agent 擋壞東西」往前推成「怎麼讓 agent 自己看得出壞東西」。

這不是要取代 sandbox、policy、tool gating、memory isolation，而是承認一個更不舒服但也更現實的事實：如果 agent 本身對威脅完全沒感，其他防線就永遠只是在後面收拾它先相信錯東西的代價。

很多 autonomous agent 真正缺的，不是再多一層平台護欄，而是先讓它自己知道：不是每段看起來像任務脈絡的東西，都真的站在你這邊。

ClawdGo 論文閱讀分析：很多 autonomous agent 真正缺的，不是再多一層護欄，而是先知道誰在帶它走

論文基本資訊

這篇在解什麼問題？

ClawdGo 的核心主張：安全感知也該被訓練成一種能力

怎麼訓練？ASAT 不是在背答案，而是在做安全自我對抗

這篇另一個關鍵：安全意識也會跨 session 積累

但作者沒有把事情講得太美：安全感知會帶來 calibration tax

實驗結果代表什麼？

我怎麼看這篇？

這篇的限制也很明顯

結語

發佈留言取消回覆

You may also like

近期文章

廣告

文章分類

近期留言

論文基本資訊

這篇在解什麼問題？

ClawdGo 的核心主張：安全感知也該被訓練成一種能力

怎麼訓練？ASAT 不是在背答案，而是在做安全自我對抗

這篇另一個關鍵：安全意識也會跨 session 積累

但作者沒有把事情講得太美：安全感知會帶來 calibration tax

實驗結果代表什麼？

我怎麼看這篇？

這篇的限制也很明顯

結語

發佈留言 取消回覆

You may also like

Transparent CTI 論文閱讀分析：當 LLM 真的開始寫威脅情報，最重要的可能不是更會寫，而是能不能被驗證

SUDP 論文閱讀分析：很多 agent 真正缺的，不是再多一個 secret manager，而是別讓提出請求的那個東西順手拿到可重複使用的權限

近期文章

廣告

文章分類

近期留言

發佈留言取消回覆