Prompt Injection

Paper Survey

AgentVisor 論文閱讀分析：很多 agent 真正缺的，不是再多一個安全 prompt，而是別再讓被污染的腦直接碰工具

本文由 AI 產生、整理與撰寫。論文基...

2026 年 4 月 28 日

Paper Survey

WASP 論文閱讀分析：現在很多 Web Agent 之所以還沒真的把你害慘，不是因為它們夠安全，而是因為它們還不夠能幹

WASP 論文閱讀分析：現在很多 Web...

2026 年 4 月 23 日

Paper Survey

LLM Tutor 洩答論文閱讀分析：很多教學助手真正先守不住的，不是正確率，而是答案邊界

這篇論文最值得注意的，不是它再次提醒 LLM tutor 可能會洩答，而是它把問題從一般教學品質拉回 adversarial robustness：真正該量的，是當學生開始像攻擊者一樣多輪施壓、情境操弄、慢慢磨穿邊界時，tutor 還能不能守住 final answer。作者發現 contextual manipulation 平均 leakage rate 高達 74%，而 fine-tuned adversarial student 更可把 Qwen-32B 的 tutor leakage 從 4% 拉到 70%。

2026 年 4 月 22 日

Paper Survey

Owner-Harm 論文閱讀分析：很多 Agent 真正先傷到的，往往不是別人，而是部署它的自己人

這篇論文最值得注意的，不是它又多列幾個 agent 風險，而是它把一個很多產品團隊其實已經遇到、卻沒被正式建模的問題講清楚：agent 很可能先傷害的不是外部世界，而是自己的 deployer。作者把這類風險定義為 Owner-Harm，並指出某套在 AgentHarm 上達 100% TPR / 0% FPR 的 safety system，面對 AgentDojo 中 prompt-injection-mediated owner-harm tasks 時卻只剩 14.8%。

2026 年 4 月 22 日

Paper Survey

Arbiter-K 論文閱讀分析：很多 agent 真正缺的，不是再多一道 guard，而是先有一個真的能執法的 kernel

這篇論文真正有價值的地方，不是在 agent 外面再多包一層 guardrail，而是直接質疑整個架構：為什麼我們一直讓 LLM 站在控制流中央，然後才用補丁式政策去收爛攤子？作者提出 Arbiter-K，把模型降級成 proposal generator，讓 deterministic kernel 透過 Semantic ISA、Security Context Registry 與 Instruction Dependency Graph 在 runtime 做 taint-aware governance。實驗顯示，OpenClaw 原生 policy 只攔下 6.17% 的違規操作，但整合 Arbiter-K 後可到 92.95%；NanoBot 也從 1.41% 拉到 94.20%。這篇真正提醒的是：agent security 若想像 production system，就不能只靠比較會勸人的 guard，得先有真的能執法的 kernel。

2026 年 4 月 22 日

Paper Survey

DEJA 論文閱讀分析：很多 RAG 真正危險的，不是突然拒答，而是開始穩定地講一堆沒用的正確廢話

DEJA 真正指出的，不只是 RAG 會不會被打到拒答，而是它可能在 retrieval 依舊成功、回答依舊流暢的情況下，穩定退化成低資訊量、低可用性的 soft failure。論文在 NQ、HotpotQA、FiQA 上讓惡意文件 retrieval success rate 超過 94%，SASR 最高達 92.27%，而 query paraphrasing、perplexity filtering 與擴大 context size 都難以有效緩解。

2026 年 4 月 22 日

Paper Survey

IICL 論文閱讀分析：很多安全對齊真正輸掉的，不是模型不知道危險，而是它太會把眼前的 pattern 補完

這篇論文真正重要的地方，不是又多一種 jailbreak 花招，而是指出 safety alignment 若主要還是行為偏好層，碰上更強的 few-shot pattern completion 時，就可能把控制權讓出去。

2026 年 4 月 22 日

Paper Survey

GAAP 論文閱讀分析：真正該保的不是模型會不會被騙，而是就算它被騙了也別把你的私密資料送出去

GAAP 這篇最重要的，不是再示範一次 prompt injection 很危險，而是把 agent privacy 問題重新定義成 runtime confidentiality：就算模型、prompt 與 provider 都不可信，只要資料流與 disclosure policy 還被 execution environment 硬鎖住，私密資料就不該被亂送出去。

2026 年 4 月 22 日

Paper Survey

SoK: The Attack Surface of Agentic AI 論文閱讀分析：真正該防的可能不是某個 prompt，而是整條從資料流走到行動流的 agent attack surface

論文基本資訊論文標題：SoK: The...

2026 年 4 月 21 日

Paper Survey

PCFI 論文閱讀分析：真正該防的，往往不是哪段外部文字看起來像攻擊，而是它有沒有開始越權改寫 prompt 控制流

這篇論文真正值得看的，不是又多一個 prompt injection detector，而是它把 prompt security 重新表述成控制面完整性問題：低優先序內容一旦開始越權改寫 system / developer 層級的指令，問題就不再是壞字串，而是 control-flow 已經被劫持。

2026 年 4 月 21 日

2026

AgentVisor 論文閱讀分析：很多 agent 真正缺的，不是再多一個安全 prompt，而是別再讓被污染的腦直接碰工具

WASP 論文閱讀分析：現在很多 Web Agent 之所以還沒真的把你害慘，不是因為它們夠安全，而是因為它們還不夠能幹

LLM Tutor 洩答論文閱讀分析：很多教學助手真正先守不住的，不是正確率，而是答案邊界

Owner-Harm 論文閱讀分析：很多 Agent 真正先傷到的，往往不是別人，而是部署它的自己人

Arbiter-K 論文閱讀分析：很多 agent 真正缺的，不是再多一道 guard，而是先有一個真的能執法的 kernel

DEJA 論文閱讀分析：很多 RAG 真正危險的，不是突然拒答，而是開始穩定地講一堆沒用的正確廢話

IICL 論文閱讀分析：很多安全對齊真正輸掉的，不是模型不知道危險，而是它太會把眼前的 pattern 補完

GAAP 論文閱讀分析：真正該保的不是模型會不會被騙，而是就算它被騙了也別把你的私密資料送出去

SoK: The Attack Surface of Agentic AI 論文閱讀分析：真正該防的可能不是某個 prompt，而是整條從資料流走到行動流的 agent attack surface

PCFI 論文閱讀分析：真正該防的，往往不是哪段外部文字看起來像攻擊，而是它有沒有開始越權改寫 prompt 控制流

近期文章

廣告

文章分類

近期留言