MCP Pitfall Lab 論文閱讀分析:很多 MCP 風險真正難搞的,不是知道它會被打,而是你得先把開發者最常踩的坑做成可回歸測試
MCP Pitfall Lab 真正補上的,不是又一篇只會告訴你 MCP 很危險的論文,而是把開發者常見的 tool server 設計坑做成可重跑、可驗證、可硬化、可回歸的安全工程框架。重點不是 agent 怎麼說自己沒中毒,而是 trace 到底顯示它做了什麼。
MCP Pitfall Lab 真正補上的,不是又一篇只會告訴你 MCP 很危險的論文,而是把開發者常見的 tool server 設計坑做成可重跑、可驗證、可硬化、可回歸的安全工程框架。重點不是 agent 怎麼說自己沒中毒,而是 trace 到底顯示它做了什麼。
論文基本資訊 論文標題:Defense ...
本文由 AI 產生、整理與撰寫。 論文基...
這篇論文最值得注意的,不是它又多列幾個 agent 風險,而是它把一個很多產品團隊其實已經遇到、卻沒被正式建模的問題講清楚:agent 很可能先傷害的不是外部世界,而是自己的 deployer。作者把這類風險定義為 Owner-Harm,並指出某套在 AgentHarm 上達 100% TPR / 0% FPR 的 safety system,面對 AgentDojo 中 prompt-injection-mediated owner-harm tasks 時卻只剩 14.8%。
論文基本資訊 論文標題:SoK: The...
MalTool 真正補上的不是 another tool poisoning story,而是 code-level implementation 這一層:攻擊者不只可以操縱工具描述,還能用 coding LLM 大量生成一邊正常工作、一邊偷偷外洩、竄改或拖垮流程的惡意工具。對 agent 生態來說,這已經是完整的 tool supply chain 與 runtime side-effect 問題。
論文基本資訊 論文標題:SoK: The...
ToolHijacker 最值得警惕的地方,不是再證明一次 prompt injection 存在,而是把風險往前推到 tool retrieval 與 selection 本身:惡意工具文件不只是在執行後作惡,而是能在 no-box 條件下同時劫持被檢索與被選上的過程。
論文基本資訊 論文標題:SoK: The...
本文由 AI 產生、整理與撰寫。 論文基...