Agentic AI 攻擊面 SoK 論文閱讀分析:真正危險的不是某句 prompt,而是整條會自己動起來的信任鏈
這篇 SoK 的關鍵不在於再提醒一次 prompt injection,而是把 agentic AI 的風險重新畫成一張系統安全地圖:當模型開始碰 RAG、tools、memory、delegation 與 autonomy,真正該防的就不再是單一句子,而是整條被錯誤信任的資料流、權限鏈與執行鏈。
這篇 SoK 的關鍵不在於再提醒一次 prompt injection,而是把 agentic AI 的風險重新畫成一張系統安全地圖:當模型開始碰 RAG、tools、memory、delegation 與 autonomy,真正該防的就不再是單一句子,而是整條被錯誤信任的資料流、權限鏈與執行鏈。
Minerva 的重點不只是把 RL 用到 CTI,而是指出 CTI 本來就有 schema、identifier 與標準資源可供 deterministic verification;與其只靠 SFT 模仿答案,不如把這些結構直接變成 reward,逼模型學會交出真正可驗證的 structured CTI outputs。
這篇論文最重要的提醒,是很多漏洞根本不是單函式 pattern matching 問題;當 caller / callee 脈絡被切掉,模型看到的就只是半個攻擊面。
這篇論文真正重要的,不是再一次證明 agent 有風險,而是把風險講得更準:一旦模型接上工具、狀態與多步規劃,真正危險的往往不是單次惡意輸出,而是 runtime 會一路替攻擊者完成 reconnaissance、環境理解與後續攻擊鋪路。
這篇論文的重點不是讓 LLM 直接當威脅偵測器,而是把 Knowledge Graph 的關係建模、Imbalanced Learning 的少數類別處理,以及 LLM 的查詢與解釋能力接成一條可操作的偵測流程。
這篇論文真正有價值的,不是又做一個更會解 CTF 的排行榜,而是把 LLM 在 cryptographic binary reverse engineering 的能力邊界正式量出來:它們已經能幫忙拆解演算法、追 key 與重建部分行為,但離能穩定收尾的 autonomous reverser 仍有明顯差距。
這篇論文最值得注意的,不是又做出一個更會讀封包內容的模型,而是徹底反過來:在 TLS 與流量混淆時代,與其繼續讀 payload,不如直接建模 packet size、IAT、direction、window、flags 與 entropy 等 flow physics,看看自動化 tunnel 到底還會留下哪些熱力學異常。
這篇論文把 memory poisoning 從需要直接碰記憶庫的高前提攻擊,拉回更現實的環境污染模型:攻擊者只要讓 web agent 在某一次正常瀏覽時看見被操弄的內容,就可能讓惡意資訊被寫進長期記憶,之後在別的網站、別的任務、甚至別的 session 裡再次觸發。真正危險的不是一次注入,而是 agent 會替攻擊者把污染保存下來。
ASTRAL 把多模態 LLM 放在一個比「會回答資安問題」更上游的位置:先從殘缺的架構圖、文件與文字描述中重建 CPS architecture,再把 threat modeling、attack path 與 quantified risk assessment 接回同一條鏈上。這篇真正提醒我們的,是很多風險評估失真,不是因為不會算,而是因為系統地圖從一開始就缺了一半。
SentinelSphere 把即時威脅偵測、Traffic Light 風險視覺化,以及量化後 Phi-4 驅動的資安教育助手收在同一套系統裡。這篇論文最值得看的,不是又做了一個聊天機器人,而是它試圖把 security detection 與 human-factor security education 接成同一條閉環。