Multi-Agent Systems

2026

AI Agents 安全論文閱讀分析:很多 agent 真正缺的,不是再多一條 prompt guardrail,而是把 delegation 和執法權拆乾淨

這篇 Security Considerations for Artificial Intelligence Agents 最有價值的,不是再列一份 agent threat list,而是把問題拉回 delegation 與 privilege control:當 agent 會自己拿資料、叫工具、跨服務做事,真正該治理的就不只是 prompt 有沒有髒,而是誰在替誰做決定、誰在替誰動手、最後哪一層真的有權說不。

2026 年 4 月 29 日

Automation-Exploit 論文閱讀分析:真正讓 offensive agent 更危險的,不是更會打,而是先學會別把真機打掛

這篇論文最值得看的,不是 autonomous offensive agent 又多會規劃,而是它開始正面處理真正的 execution risk:高風險 memory-corruption exploit 不能只在真機上慢慢試,而要先蒐集足夠環境脈絡,動態建立和目標儘量同構的 digital twin,把 libc、runtime state 與 file descriptor 行為對齊後,在隔離副本裡把 payload debug 到收斂,再回到實體目標做一次風險壓低的 one-shot execution。

2026 年 4 月 29 日

AgentFlow 論文閱讀分析:很多漏洞 AI 真正缺的,不是更強模型,而是更會編隊的 harness

這篇論文真正補到的,不是再換一顆更強的漏洞模型,而是把 multi-agent harness 本身變成可搜尋、可診斷、可改寫的優化對象。作者提出 AgentFlow,以 typed graph DSL 同時搜尋角色、拓撲、prompt、tool binding 與 coordination protocol,在 TerminalBench-2 拿到 84.3%,並在 Google Chrome 上找到 10 個先前未知、且被廠商接受的 zero-days。

2026 年 4 月 23 日

LLM Tutor 洩答論文閱讀分析:很多教學助手真正先守不住的,不是正確率,而是答案邊界

這篇論文最值得注意的,不是它再次提醒 LLM tutor 可能會洩答,而是它把問題從一般教學品質拉回 adversarial robustness:真正該量的,是當學生開始像攻擊者一樣多輪施壓、情境操弄、慢慢磨穿邊界時,tutor 還能不能守住 final answer。作者發現 contextual manipulation 平均 leakage rate 高達 74%,而 fine-tuned adversarial student 更可把 Qwen-32B 的 tutor leakage 從 4% 拉到 70%。

2026 年 4 月 22 日