AI Security

2026

SnapGuard 論文閱讀分析:很多 screenshot-based web agent 真正缺的,不是更大的模型,而是先有夠快的第一道守門員

這篇論文真正補到的,不是再提醒一次 web agent 會被頁面上的惡意指令帶偏,而是把問題切到 screenshot-based agent 的真實痛點:當模型看到的是整張被渲染過的畫面時,text-only guardrail 常常不夠,而每一步都丟大 VLM 又太重。作者提出 SnapGuard,用視覺穩定性與 action-oriented 文字訊號做輕量級多模態檢測,重點不是追求完美,而是替 browser agent 補上一個夠快、夠便宜、能先攔下可疑畫面的第一道守門員。

2026 年 4 月 29 日

SkillGuard-Robust 論文閱讀分析:很多 agent skill 真正缺的,不是再多一個 prompt filter,而是載入前先把整個 package 審清楚

這篇論文真正補到的,不是再提醒一次 agent skill 可能有毒,而是把問題往前推成 package-level pre-load auditing:當 skill 由 SKILL.md、scripts、reference docs 與 repo context 組成時,真正該審的不是單一句子,而是跨檔案風險鏈。作者提出 SkillGuard-Robust,把審計拆成結構化證據抽取、選擇性語意驗證、衝突鏈仲裁與 rewrite 一致性整合,提醒我們 skill 供應鏈安全的核心其實更像 admission control,而不是單純 prompt moderation。

2026 年 4 月 29 日

DDG 論文閱讀分析:很多 adversarial training 真正缺的,不是更猛的攻擊,而是別把最脆弱的樣本一路打壞

這篇論文真正值得看的,不是它又替 adversarial training 補了一個技巧,而是它指出:很多 robustness 崩壞不是平均發生,而是低信心樣本上的錯誤訊號被一路放大,最後演變成 catastrophic overfitting 與 clean accuracy 的雙輸。作者提出 DDG,按樣本信心與預測狀態動態調整 perturbation 與 supervision,核心是在防禦訓練過程中先別把最脆弱的樣本打壞。

2026 年 4 月 29 日

AVISE 論文閱讀分析:很多 AI 安全真正缺的,不是再多一個攻擊 prompt,而是一套可重跑的評測框架

這篇論文真正補到的,不是又一組 jailbreak 技巧,而是把 attack、evaluation、aggregation 與 reporting 接成可重跑的 Security Evaluation Test。作者提出 AVISE 框架,並用 ALM 增強版 Red Queen 多輪攻擊示範:25 個 test cases、ELM 評估準確率 92%,且 9 個近期模型全都對這類多輪操控呈現不同程度脆弱性。

2026 年 4 月 23 日