2026

AutoInject 論文閱讀分析:當 Prompt Injection 開始自己學會怎麼攻擊,防線就不能再假設對手只會手工拼字串

AutoInject 這篇論文最值得注意的,不是它又做出一個 prompt injection 範例,而是它把攻擊從人工 red teaming 推進成可被強化學習最佳化的自動化程序。當 adversarial suffix 能被系統化搜尋、又能跨模型與任務遷移時,很多仰賴固定模板與靜態字串規則的 agent 防線,就會開始撐不住。

2026 年 4 月 17 日

WebAgentGuard 論文閱讀分析:當 Web Agent 真正需要的,不是更長的提示詞,而是一個會先說「先別動」的平行 Guard

這篇論文真正往前推的一點,是把 web agent 的安全判斷從主 agent 的 task reasoning 裡拆出來,變成一個平行運作的 guard model。它不只是再補一句 system prompt,而是在每一步 action 落地前,先讓另一個多模態 guard 檢查 HTML、screenshot 與使用者目標之間是否出現 prompt injection 風險。

2026 年 4 月 17 日

Silent Egress 論文閱讀分析:當 Agent 看起來什麼都沒說錯,資料卻可能早就在你沒注意的那一步悄悄送出去了

這篇論文最值得記住的重點是:在 agent 系統裡,真正危險的 prompt injection 不一定會反映在最後輸出文字上,而可能藏在自動 URL preview、metadata 擷取與工具呼叫造成的 network egress。當使用者看起來只是在請 agent 摘要網頁,敏感 runtime context 卻可能已經被分片、低噪音地往外送出。

2026 年 4 月 17 日

Silent Egress 論文閱讀分析:當 Agent 看起來什麼都沒說錯,資料卻可能早就在你沒注意的那一步悄悄送出去了

這篇論文最值得記住的重點是:在 agent 系統裡,真正危險的 prompt injection 不一定會反映在最後輸出文字上,而可能藏在自動 URL preview、metadata 擷取與工具呼叫造成的 network egress。當使用者看起來只是在請 agent 摘要網頁,敏感 runtime context 卻可能已經被分片、低噪音地往外送出。

2026 年 4 月 17 日

Can Agents Secure Hardware? 論文閱讀分析:當 Agent 開始替你自動長出硬體保護機制,真正該驗的就不只是它有沒有做出來,而是攻擊者拆不拆得掉

這篇論文最值得記住的重點是:在硬體 IP obfuscation 這種高風險安全設計問題裡,agent 能把 planning、lock-plan generation、deterministic compilation、functional verification 與 SAT-based evaluation 串成工作流,確實開始有用了;但只要 SAT solver 仍能全面恢復正確 key,這種「會生成安全機制」和「真的生成了安全性」就還是兩回事。

2026 年 4 月 17 日

MUZZLE 論文閱讀分析:當 Web Agent 真的開始替你逛網頁、切網站、點按鈕,Prompt Injection 也不會再傻傻只躲在單一頁面等你踩

MUZZLE 這篇論文最值得記住的重點是:對 web agent 來說,真正高風險的 prompt injection 已經不是單一靜態頁面的惡意字串,而是會沿著 agent 真實瀏覽軌跡,自動尋找高價值 UI 注入點、根據任務上下文改寫攻擊策略、甚至跨應用擴散的 agentic red-teaming 問題。當攻擊開始跟著 workflow 走,防守也不能再只盯著 payload 本身。

2026 年 4 月 17 日

AdapTools 論文閱讀分析:當 Agent 已經不是簡單的文字接龍,Prompt Injection 也開始學會挑工具、換說法、順著任務偽裝自己

AdapTools 這篇論文最值得記住的重點是:對現代 tool-using agent 來說,真正危險的 indirect prompt injection 已經不只是固定模板,而是會根據任務脈絡挑選最合適工具入口、改寫攻擊語句、並偽裝成正常外部內容的適應式攻擊。當攻擊者也開始理解 agent workflow,單靠 prompt-level 過濾很難真正守住整條控制鏈。

2026 年 4 月 17 日

AttriGuard 論文閱讀分析:真正該防的,也許從來不是那段髒資料「像不像指令」,而是它到底有沒有開始接管 Agent 下一步

AttriGuard 最重要的洞見是:間接提示注入不該只當成文字分類問題,而該當成行動歸因問題。真正要驗的不是外部內容哪句話最像惡意 prompt,而是某個 tool call 到底是不是仍由使用者意圖支撐;如果把 observation 的控制力削弱後,這個 call 就活不下來,那它就很可能已經被外部內容接管。

2026 年 4 月 17 日

Beyond RAG for CTI 論文閱讀分析:真正卡住情資問答的,往往不是找不到文件,而是關係推理、拒答能力與 runtime 穩定性根本沒被一起設計

Beyond RAG for Cyber Threat Intelligence 這篇論文最值得看的地方,是它沒有再把 GraphRAG 當成萬靈丹,而是把 CTI 問答裡真正重要的幾條軸線一起攤開:當問題需要多跳關係推理時,graph grounding 確實能幫上忙;但 graph-only pipeline 也會引入 text-to-Cypher、schema mismatch、空結果高自信回答與延遲不穩等新風險。最後更可靠的方向,不是單一路線,而是 graph、text、agentic repair 與 abstention policy 一起設計的 hybrid intelligence system。

2026 年 4 月 17 日