Semantic DoS 論文閱讀分析:很多 LLM robot 真正先被打掉的,不是 integrity,而是被安全語言嚇到停工
這篇論文指出,很多 LLM 控制的機器人真正先被打掉的不是 integrity,而是 availability:攻擊者只要往音訊管道塞進幾句看似合理的安全警語,就能觸發模型的 safety reasoning,讓系統停工、誤報或卡進等待迴圈。
2026 年 4 月 29 日
這篇論文指出,很多 LLM 控制的機器人真正先被打掉的不是 integrity,而是 availability:攻擊者只要往音訊管道塞進幾句看似合理的安全警語,就能觸發模型的 safety reasoning,讓系統停工、誤報或卡進等待迴圈。
DEJA 真正指出的,不只是 RAG 會不會被打到拒答,而是它可能在 retrieval 依舊成功、回答依舊流暢的情況下,穩定退化成低資訊量、低可用性的 soft failure。論文在 NQ、HotpotQA、FiQA 上讓惡意文件 retrieval success rate 超過 94%,SASR 最高達 92.27%,而 query paraphrasing、perplexity filtering 與擴大 context size 都難以有效緩解。