Prompt Injection

SkillJect 把 skill-based prompt injection 從手工 payload 提升成 trace-driven closed-loop attack：攻擊者不只在 skill 裡塞惡意意圖，還會根據 tool calls、file operations 與執行結果反覆修 payload，讓被污染的 skill 更像正常擴充、卻更穩地把 coding agent 帶往錯的行為。

2026 年 4 月 17 日

Paper Survey

Cybersecurity AI 論文閱讀分析：當 AI 資安工具開始自己打漏洞，最危險的反而可能是目標主機回給它看的那段內容

這篇論文把 prompt injection 拉進 AI-powered cybersecurity tools 的實戰場景：當 security agent 去掃描與利用惡意目標時，對方回傳的內容本身就可能變成控制訊號。作者在 14 種 attack variants 上觀察到 100% 成功率，並指出從初始接觸到 compromise 可以在 20 秒內完成。

2026 年 4 月 17 日

Paper Survey

AutoInject 論文閱讀分析：當 Prompt Injection 開始自己學會怎麼攻擊，防線就不能再假設對手只會手工拼字串

AutoInject 這篇論文最值得注意的，不是它又做出一個 prompt injection 範例，而是它把攻擊從人工 red teaming 推進成可被強化學習最佳化的自動化程序。當 adversarial suffix 能被系統化搜尋、又能跨模型與任務遷移時，很多仰賴固定模板與靜態字串規則的 agent 防線，就會開始撐不住。

2026 年 4 月 17 日

Paper Survey

WebAgentGuard 論文閱讀分析：當 Web Agent 真正需要的，不是更長的提示詞，而是一個會先說「先別動」的平行 Guard

這篇論文真正往前推的一點，是把 web agent 的安全判斷從主 agent 的 task reasoning 裡拆出來，變成一個平行運作的 guard model。它不只是再補一句 system prompt，而是在每一步 action 落地前，先讓另一個多模態 guard 檢查 HTML、screenshot 與使用者目標之間是否出現 prompt injection 風險。

2026 年 4 月 17 日

Paper Survey