Stealth Attacks

2026

DEJA 論文閱讀分析:很多 RAG 真正危險的,不是突然拒答,而是開始穩定地講一堆沒用的正確廢話

DEJA 真正指出的,不只是 RAG 會不會被打到拒答,而是它可能在 retrieval 依舊成功、回答依舊流暢的情況下,穩定退化成低資訊量、低可用性的 soft failure。論文在 NQ、HotpotQA、FiQA 上讓惡意文件 retrieval success rate 超過 94%,SASR 最高達 92.27%,而 query paraphrasing、perplexity filtering 與擴大 context size 都難以有效緩解。

2026 年 4 月 22 日