論文閱讀分析|當 autonomous LLM agent 真的開始替你長時間做事,真正危險的往往不是單點漏洞,而是整條 lifecycle 一起鬆掉
論文基本資訊 論文標題:Security...
2026 年 4 月 18 日
論文基本資訊 論文標題:Security...
這篇 Prompt Injection Attacks on Agentic Coding Assistants 的 SoK 把問題講得很完整:當 coding assistant 已經能讀檔、跑 shell、接 MCP、吃 skill 與 repo 規則檔時,風險就不再只是某段 prompt 有沒有惡意,而是整條從外部內容、工具描述、協定整合到設定持久化的控制面都可能被注入。真正要治理的,是 agent runtime 的信任邊界,而不是只靠過濾器擋幾句關鍵字。
ClawGuard 這篇論文最重要的提醒是:對有工具權限的 LLM agent 來說,安全不能只押寶模型自己在被污染的上下文裡保持清醒,而要把防線放在每一次 tool call 即將落地的邊界。它用任務導出的規則、內容遮罩、技能檢查與人工批准,把 web content、MCP 與 skill file 三條間接注入路徑一起拉回可審計的 runtime control plane。