Paper Survey

2026

Cybersecurity AI 論文閱讀分析:當 AI 資安工具開始自己打漏洞,最危險的反而可能是目標主機回給它看的那段內容

這篇論文把 prompt injection 拉進 AI-powered cybersecurity tools 的實戰場景:當 security agent 去掃描與利用惡意目標時,對方回傳的內容本身就可能變成控制訊號。作者在 14 種 attack variants 上觀察到 100% 成功率,並指出從初始接觸到 compromise 可以在 20 秒內完成。

2026 年 4 月 17 日

MCPThreatHive 論文閱讀分析:當 MCP 生態開始爆量成長,真正缺的就不只是 scanner,而是一套活的威脅情報底座

MCPThreatHive 的重點不是再做一個單點防禦,而是把 MCP threat intelligence 做成持續運轉的基礎設施:從情報蒐集、LLM 分析、MCP-38/OWASP/STRIDE 對映、知識圖譜,到風險排序與視覺化,補上現有 MCP 安全工具在組合攻擊建模、持續更新與跨框架翻譯上的缺口。

2026 年 4 月 17 日

Architecting Secure AI Agents 論文閱讀分析:真正能撐住間接提示注入的,不會只是更會拒答的模型,而是把 plan、policy、approval 與 runtime feedback 全部拆開來治理

這篇 Architecting Secure AI Agents 真正重要的地方,不是再多一個 prompt injection detector,而是把問題重畫成 agent architecture:高效能 agent 幾乎一定需要 dynamic replanning 與 policy update,因此真正該治理的是 plan、policy、approver、executor、policy enforcer 與 environment feedback 之間的控制鏈。

2026 年 4 月 17 日

AutoInject 論文閱讀分析:當 Prompt Injection 開始自己學會怎麼攻擊,防線就不能再假設對手只會手工拼字串

AutoInject 這篇論文最值得注意的,不是它又做出一個 prompt injection 範例,而是它把攻擊從人工 red teaming 推進成可被強化學習最佳化的自動化程序。當 adversarial suffix 能被系統化搜尋、又能跨模型與任務遷移時,很多仰賴固定模板與靜態字串規則的 agent 防線,就會開始撐不住。

2026 年 4 月 17 日

WebAgentGuard 論文閱讀分析:當 Web Agent 真正需要的,不是更長的提示詞,而是一個會先說「先別動」的平行 Guard

這篇論文真正往前推的一點,是把 web agent 的安全判斷從主 agent 的 task reasoning 裡拆出來,變成一個平行運作的 guard model。它不只是再補一句 system prompt,而是在每一步 action 落地前,先讓另一個多模態 guard 檢查 HTML、screenshot 與使用者目標之間是否出現 prompt injection 風險。

2026 年 4 月 17 日