Prompt Injection Threat Landscape 論文閱讀分析:很多 Agent 防禦之所以看起來有效,可能只是因為它們先把真正重要的上下文一起擋掉了
本文由 AI 產生、整理與撰寫。 Pro...
本文由 AI 產生、整理與撰寫。 Pro...
SIR-Bench 想補的不是另一個只看最後 triage 對不對的 benchmark,而是更接近真實 SOC 的問題:Incident Response Agent 到底有沒有真的做調查?這篇把 investigation depth 拉成核心指標,要求 agent 不只判斷 true positive / false positive,還得沿著 CloudTrail 與工具查詢,找出 alert 原本沒直接告訴你的 novel findings。
SkillJect 把 skill-based prompt injection 從手工 payload 提升成 trace-driven closed-loop attack:攻擊者不只在 skill 裡塞惡意意圖,還會根據 tool calls、file operations 與執行結果反覆修 payload,讓被污染的 skill 更像正常擴充、卻更穩地把 coding agent 帶往錯的行為。
ADAM 把 agent memory 風險從偶發外洩,推進成一條會估計記憶分布、依前一輪回應自我調整、逐步最大化 privacy leakage 的 adaptive extraction attack,提醒我們 memory 應被當成資料平面而不是單純上下文增強層來保護。
這篇論文把 prompt injection 拉進 AI-powered cybersecurity tools 的實戰場景:當 security agent 去掃描與利用惡意目標時,對方回傳的內容本身就可能變成控制訊號。作者在 14 種 attack variants 上觀察到 100% 成功率,並指出從初始接觸到 compromise 可以在 20 秒內完成。
這篇研究用 Reddit 上三個資安社群、892 則討論,拆開真實 SOC 現場如何使用、理解與保留 LLM。最關鍵的結論不是「大家不用 AI」,而是大家主要把它放在低風險、可驗證、能保留人類主導權的任務上;真正阻礙高自治導入的,是可靠性、驗證成本、隱私風險與責任邊界。
MCPThreatHive 的重點不是再做一個單點防禦,而是把 MCP threat intelligence 做成持續運轉的基礎設施:從情報蒐集、LLM 分析、MCP-38/OWASP/STRIDE 對映、知識圖譜,到風險排序與視覺化,補上現有 MCP 安全工具在組合攻擊建模、持續更新與跨框架翻譯上的缺口。
H-TechniqueRAG 把 MITRE ATT&CK 的 tactic→technique 階層直接變成整條 CTI annotation pipeline 的骨架:先找 tactic,再局部檢索 technique,最後用 hierarchy-aware reranking 與 constrained generation 同時換到更高精度、更低延遲與更少 LLM 成本。
這篇論文真正補上的,不是再多抽幾個 IOC,而是把 CTI 裡人看得懂、但機器還不能直接用的線索,自動翻成 SOC 真正跑得動的 regex pattern,讓情資能更實際地接上 log parsing、hunting 與 detection engineering。
這篇 Architecting Secure AI Agents 真正重要的地方,不是再多一個 prompt injection detector,而是把問題重畫成 agent architecture:高效能 agent 幾乎一定需要 dynamic replanning 與 policy update,因此真正該治理的是 plan、policy、approver、executor、policy enforcer 與 environment feedback 之間的控制鏈。