AttackEval 論文閱讀分析:真正難防的 Prompt Injection,往往不是最像攻擊的那一種
這篇論文真正重要的地方,是把 prompt injection 從幾個大家熟悉的示範 payload,拉回成一張可量測的攻擊地圖。作者發現最耐打的往往不是最直白的攻擊,而是混淆、情緒操控、獎勵框架與複合式規避這些更像正常語言的 stealthy strategies。
2026 年 4 月 18 日
這篇論文真正重要的地方,是把 prompt injection 從幾個大家熟悉的示範 payload,拉回成一張可量測的攻擊地圖。作者發現最耐打的往往不是最直白的攻擊,而是混淆、情緒操控、獎勵框架與複合式規避這些更像正常語言的 stealthy strategies。