Agent Runtime 架構論文閱讀分析:很多間接 prompt injection 真正缺的,不是 detector,而是先把骨架搭對
論文基本資訊 論文標題:Architec...
2026 年 4 月 29 日
論文基本資訊 論文標題:Architec...
這篇論文真正補的不是再多一層外掛式 guardrail,而是要求 autonomous agent 在每個高後果動作前先跑一輪治理推理,判斷自己能不能做、要不要改、還是應該把決策交還給人。
這篇論文真正值得看的,不是又多一個 prompt injection detector,而是它把 prompt security 重新表述成控制面完整性問題:低優先序內容一旦開始越權改寫 system / developer 層級的指令,問題就不再是壞字串,而是 control-flow 已經被劫持。
Anumati 真正要補的,不是再多一層身份驗證,而是 agent 在呼叫別的 agent 或工具前後,能不能留下可版本化、可審計、逐行動可追責的 consent 與 adherence 證據。
這篇論文真正補到的,不是再發明一個更聰明的 guard model,而是把高風險 agent 裡那些本來就能形式化的政策,從 prompt 與常識判斷裡抽出來,改成可驗證、可審計、可在執行時硬鎖住的 symbolic guardrails。
本文由 AI 產生、整理與撰寫。 論文基...
論文基本資訊 論文標題:Policy-I...