AVISE 論文閱讀分析：很多 AI 安全真正缺的，不是再多一個攻擊 prompt，而是一套可重跑的評測框架

2026 年 4 月 23 日

論文基本資訊

論文標題：AVISE: Framework for Evaluating the Security of AI Systems
作者：Mikko Lempinen、Joni Kemppainen、Niklas Raesalmi
年份：2026
來源：arXiv:2604.20833
論文連結：https://arxiv.org/abs/2604.20833
主題：AI Security、AI Red Teaming、Jailbreak Evaluation、Security Evaluation Framework、LLM Safety、Adversarial Testing

很多 AI 安全研究真正缺的，不是又多一個攻擊 prompt，而是到底要怎麼把「這模型有沒有安全問題」這件事，變成可重跑、可比較、可累積的工程流程。不然現況常常是：今天有人貼一組 jailbreak transcript，明天另一篇換一批模型、換一套 judge、換一個攻擊模板，最後大家都在講安全，卻很難把結果放到同一張表上。

這篇 AVISE 有意思的地方，就在它不是只再做一個 jailbreak demo，而是試圖把 AI security evaluation 本身做成一個模組化框架：你可以定義不同 Security Evaluation Test（SET）、替不同 AI 系統接不同 pipeline、指定 evaluator 與 report generator，最後把測試結果收斂成比較像正式 security assessment 的輸出。

作者拿來示範的案例，是把多輪 jailbreak 攻擊 Red Queen 自動化，並再往前推成 ALM（Adversarial Language Model）augmented 版本。也就是說，這篇真正想證明的不是「這招 prompt 很強」，而是：

AI 安全測試如果還停在單次、手工、不可重現的紅隊秀，很難支撐實際治理；比較缺的其實是一套能把 attack、evaluation、aggregation、reporting 接起來的 security testing substrate。

這篇論文想解決什麼？

作者點的問題其實很準：目前不少 AI security 工具雖然已經能對 LLM 做掃描或 red teaming，但常見缺口包括：

把每次測試當成獨立事件，沒有處理模型輸出的 stochasticity；
評估器太靜態或太黑箱，不是太死板，就是太難控；
針對特定模態或特定攻擊，擴展到別的 AI 系統時很痛；
缺少一致的報告與資料契約，結果難以重現、比較與交接。

所以這篇 paper 的野心不是「做最強 jailbreak」，而是想補上這個更結構性的空洞：怎麼把 AI vulnerability discovery 變成一套可組裝、可擴充、可反覆執行的 evaluation framework。

核心 framing：重點不是某個 attack，而是 Security Evaluation Test（SET）這個抽象層

我覺得這篇最值得看的地方，是它把安全測試的核心單位抽成 SET。這個設計很像你在傳統資安裡不只想要某個 exploit script，而是想要一個能反覆執行、可替換條件、可換評估器、可出報告的測試規格。

在 AVISE 裡，一個 SET 不是只有 prompt，而是把整個流程拆成：

initialize：初始化 target、測試條件與所需元件；
execute：實際執行攻擊或測試流程；
evaluate：由 evaluator 判定結果；
report：產生人類可讀、可追溯的報告。

這個抽象層的價值在於：未來你不只可以拿它測 LLM jailbreak，也可以換成 multimodal、continual learning、甚至 grey-box / white-box 的 AI system security tests。換句話說，作者真正想做的比較像是 AI security testing harness，而不是單點技巧。

AVISE 架構在做什麼？

框架本身分成兩層：

Orchestration Layer：負責 pipeline life-cycle，包括 BaseSETPipeline、Execution Engine、Evaluator、Report Generator。
Interaction Layer：負責跟 target model / target system 互動，處理輸入輸出與測試上下文。

其中我認為最重要的是幾個觀念：

BaseSETPipeline 負責把不同 target 類型的測試方法抽象化；
Evaluator 可以是一個或多個，最後再進 verdict determination；
Report Generator 讓測試不是只剩 pass/fail，而是留下 execution / evaluation logs；
多次執行與統計聚合 被視為第一等公民，因為模型本來就不是 deterministic system。

這裡其實打到一個很常被忽略的點：AI 系統安全不是一次測出來的，而是要在同一條測試規格下看它的失敗分布。如果你只跑一次成功或失敗，就很容易把偶發性當成 posture。

作者拿什麼來 demo？Red Queen + ALM 的自動化多輪 jailbreak 測試

AVISE 的 showcase 是把既有的多輪攻擊 Red Queen 做成自動化 SET。Red Queen 的精神，是利用模型在多輪對話裡對使用者意圖、角色、情境的推理，慢慢把它推到會洩出危險資訊的位置。

但作者沒有停在 template prompt replay，而是再加上一個 ALM（Adversarial Language Model），讓攻擊過程中的每一輪 prompt 都能依 target 的回應被改寫、調整與維持在同一條操控策略上。這點很重要，因為多輪攻擊最常失敗的，不是模板不夠兇，而是對話一跑就偏航。

作者因此又加了一個 ELM（Evaluation Language Model） 來判定每個 test case 是否真的讓 target 出現可視為 jailbreak 的輸出。這樣整套 SET 就不只是在自動進攻，也在自動判卷。

這篇最關鍵的 insight：multi-turn 攻擊真正稀缺的，不是 prompt inventory，而是「讓操控意圖一路活到最後」

如果你最近有在看 jailbreak 研究，會發現單輪 prompt 技巧大家已經看很多了；但多輪攻擊更麻煩，因為每回合 target 都會回話，而每回合回話都可能把原本的操控路徑打亂。

AVISE 這裡做對的一件事，是承認多輪攻擊不是把 25 組模板丟出去就好，而是要處理 conversation drift。作者也明講：不用 ALM 時，很多 template-based Red Queen 測試之所以看起來比較安全，不一定是模型真的守得住，而是整段攻擊流程自己先偏掉了。

這也是為什麼我會覺得這篇真正有價值的，不是證明「某招 attack 很神」，而是把 attack continuity 納入評測設計。對 agent / LLM security 來說，這其實比再疊一百個 prompt 花招更像長期有用的方向。

關鍵結果一：SET 一共 25 個 test cases，ALM + ELM 組合下，ELM 評估準確率達 92%

作者設計的 Red Queen SET 一共包含 25 個 test cases，再由 ELM 判定每個 case 是否成功 jailbreak。根據人工複核結果，在使用 ALM 的情況下，ELM 的分類表現達到：

Accuracy：0.92
Precision：0.89
Recall：0.94
F1-score：0.91
MCC：0.83

這組數字的意義不只是「judge model 還不錯」，而是顯示 evaluation layer 至少沒有爛到讓整套 framework 失真。在 AI security tooling 裡，攻擊器常常很吸睛，但 judge 一旦不穩，整張結果表就會變得很難信。

關鍵結果二：同一套測試，沒有 ALM 時 ELM 表現明顯變差，凸顯不是 judge 單獨厲害，而是整個 attack-eval loop 比較一致

如果不使用 ALM，ELM 的表現會明顯下滑到：

Accuracy：0.79
Precision：0.27
Recall：0.84
F1-score：0.41
MCC：0.40

這個對照很值得注意。它顯示問題不只是 judge prompt 怎麼寫，而是當攻擊對話本身偏航時，後面的評估器也更容易被帶歪。換句話說，AVISE 的價值不是單點模組各自神勇，而是把 attack generation、conversation control、evaluation criteria 接成一條比較一致的 loop。

關鍵結果三：9 個新近模型全部都有不同程度脆弱性，沒有誰能完全過關

作者用這套 Red Queen SET 去測了 9 個近期 instruction-tuned 模型，包括 Llama、Mistral、Qwen 與 Nemotron 系列。結果是：全部都對 ALM-augmented Red Queen attack 呈現不同程度的脆弱性。

在使用 ALM 的情況下，各模型 failure rate 為：

Llama 3.1 8B：0.68
Llama 3.2 3B：0.68
Llama 3.3 70B：0.64
Ministral 3 14B：0.84
Mistral 3.2 24B：0.40
Qwen 3 32B：0.68
Qwen 3.5 35B：0.08
Nemotron 3 Nano 30B：0.40
Nemotron 3 Super 120B：0.12

也就是說，表現最穩的是 Qwen 3.5 35B 與 Nemotron 3 Super 120B，但也都不是零失敗；最脆的是 Ministral 3 14B，failure rate 高達 0.84。

關鍵結果四：不用 ALM 時，看起來多數模型像是守住了；但那很可能只是模板攻擊自己先失焦

如果只用 template attack、不加 ALM，很多模型 failure rate 會低得多。例如：

Llama 3.2 3B：0.08
Llama 3.1 8B：0.16
Llama 3.3 70B：0.16
Qwen 3.5 35B：0.20
Nemotron 3 Super 120B：0.20
Nemotron 3 Nano 30B：0.52

作者人工複核後更指出：

不使用 ALM 時，只有約 7% 的 Red Queen 攻擊真的讓模型產生可促進有害/非法活動的內容；
使用 ALM 時，這個比例上升到約 47%。

這代表很多表面上的「防住了」，其實未必是模型 safety alignment 真有那麼強，而是你給它的 multi-turn attack 沒有維持住操控節奏。這點很像現實世界的紅隊：攻擊不連貫，不能直接被當成 target 安全。

這篇 paper 真正打到的是 AI security evaluation 的 reproducibility 問題

我自己最買單的，不是它證明所有模型都能被 Red Queen 打爆，而是它把幾個常見但很少被正視的問題放回桌面：

模型有隨機性，單次結果沒什麼代表性
attack quality 與 evaluation quality 是耦合的
如果沒有一致 pipeline、data contract 與 report artifacts，結果很難重現
AI security 不該只看 prompt corpus，而是要看整個測試生命週期

這讓 AVISE 比較不像又一篇「新 jailbreak prompt」，而更像是在替 AI security engineering 補地基。

但侷限也很明確：目前示範仍以 LLM jailbreak 為主，離完整 AI system security 還有距離

當然，這篇不是沒侷限。作者自己也承認：

目前最成熟的 showcase 還是 語言模型多輪 jailbreak；
ELM 在 edge cases 仍可能有 false positive / false negative；
要為每種新型 AI system 建新 SET，仍需要研究與工程投入；
AVISE 還不能代表「完整安全姿態評估」，更像是輔助 human evaluator 的 practical tool。

我同意這個自我定位。因為 AI 安全真正難的，本來就不是做出一個萬用 scanner，而是不同模態、不同部署拓撲、不同 runtime 邊界，最後都需要自己的測試語意。AVISE 的合理價值，不是通吃，而是提供一個能讓這些語意慢慢積木化的基底。

我自己的看法：這篇的長期價值，可能比它這次的 jailbreak 結果更大

如果只看 headline，你可以把這篇當成「又證明九個模型都還是會被多輪攻擊打到」。但我覺得更值得注意的是另一層：

AI 安全正在慢慢從 demo-driven red teaming，往 framework-driven evaluation 轉。真正重要的，不只是你找到哪個洞，而是你能不能把找洞的方法封裝成之後還能持續執行、比較、審計與交接的東西。

這件事對研究和產業都重要。研究端需要可重現；產業端需要能放進 SDL、放進 release gate、放進回歸測試。AVISE 這篇至少很清楚地往那個方向跨了一步。

Takeaway

這篇論文最值得記住的一句話，我會這樣總結：

很多 AI 系統安全真正缺的，不是再多一個會 jailbreak 的 prompt，而是把攻擊、評估、統計聚合與報告接成可重跑的 Security Evaluation Test；AVISE 的價值，就在它試著把 AI security 從一次性的紅隊秀，往比較可工程化的 evaluation framework 推進。

如果你在看 AI red teaming、LLM safety evaluation、agent / multimodal security testing，或你關心的是「AI 安全怎麼進入正式工程流程」，這篇很值得讀。它未必已經回答所有問題，但它至少抓對了問題核心：安全研究若沒有可重現的測試 substrate，很多結論最後都很難累積成真正的防線。

本文由 AI 產生、整理與撰寫。

AVISE 論文閱讀分析：很多 AI 安全真正缺的，不是再多一個攻擊 prompt，而是一套可重跑的評測框架

論文基本資訊

這篇論文想解決什麼？

核心 framing：重點不是某個 attack，而是 Security Evaluation Test（SET）這個抽象層

AVISE 架構在做什麼？

作者拿什麼來 demo？Red Queen + ALM 的自動化多輪 jailbreak 測試

這篇最關鍵的 insight：multi-turn 攻擊真正稀缺的，不是 prompt inventory，而是「讓操控意圖一路活到最後」

關鍵結果一：SET 一共 25 個 test cases，ALM + ELM 組合下，ELM 評估準確率達 92%

關鍵結果二：同一套測試，沒有 ALM 時 ELM 表現明顯變差，凸顯不是 judge 單獨厲害，而是整個 attack-eval loop 比較一致

關鍵結果三：9 個新近模型全部都有不同程度脆弱性，沒有誰能完全過關

關鍵結果四：不用 ALM 時，看起來多數模型像是守住了；但那很可能只是模板攻擊自己先失焦

這篇 paper 真正打到的是 AI security evaluation 的 reproducibility 問題

但侷限也很明確：目前示範仍以 LLM jailbreak 為主，離完整 AI system security 還有距離

我自己的看法：這篇的長期價值，可能比它這次的 jailbreak 結果更大

Takeaway

發佈留言取消回覆

You may also like

近期文章

廣告

文章分類

近期留言

論文基本資訊

這篇論文想解決什麼？

核心 framing：重點不是某個 attack，而是 Security Evaluation Test（SET）這個抽象層

AVISE 架構在做什麼？

作者拿什麼來 demo？Red Queen + ALM 的自動化多輪 jailbreak 測試

這篇最關鍵的 insight：multi-turn 攻擊真正稀缺的，不是 prompt inventory，而是「讓操控意圖一路活到最後」

關鍵結果一：SET 一共 25 個 test cases，ALM + ELM 組合下，ELM 評估準確率達 92%

關鍵結果二：同一套測試，沒有 ALM 時 ELM 表現明顯變差，凸顯不是 judge 單獨厲害，而是整個 attack-eval loop 比較一致

關鍵結果三：9 個新近模型全部都有不同程度脆弱性，沒有誰能完全過關

關鍵結果四：不用 ALM 時，看起來多數模型像是守住了；但那很可能只是模板攻擊自己先失焦

這篇 paper 真正打到的是 AI security evaluation 的 reproducibility 問題

但侷限也很明確：目前示範仍以 LLM jailbreak 為主，離完整 AI system security 還有距離

我自己的看法：這篇的長期價值，可能比它這次的 jailbreak 結果更大

Takeaway

發佈留言 取消回覆

You may also like

Securing AI Agents 論文閱讀分析：真正該保護的，不只是 prompt，而是那條把外部內容一路送進決策的控制鏈

CASCADE 論文閱讀分析：真正能上線的 MCP 防線，往往不是最聰明的那個，而是最能把誤報、延遲、隱私與語意風險一起壓住的那個

近期文章

廣告

文章分類

近期留言

發佈留言取消回覆