Agent Runtime 架構論文閱讀分析:很多間接 prompt injection 真正缺的,不是 detector,而是先把骨架搭對
論文基本資訊 論文標題:Architec...
論文基本資訊 論文標題:Architec...
這篇論文真正補的不是新的 machine-generated text detector,而是把資料建構、文字攻擊、detector 訓練與效果/韌性/效率評估接成同一個可重跑平台,讓大家比較開始像在同一個場上打。
這篇論文真正補到的,不是再提醒一次 web agent 會被頁面上的惡意指令帶偏,而是把問題切到 screenshot-based agent 的真實痛點:當模型看到的是整張被渲染過的畫面時,text-only guardrail 常常不夠,而每一步都丟大 VLM 又太重。作者提出 SnapGuard,用視覺穩定性與 action-oriented 文字訊號做輕量級多模態檢測,重點不是追求完美,而是替 browser agent 補上一個夠快、夠便宜、能先攔下可疑畫面的第一道守門員。
這篇論文真正補到的,不是再提醒一次 agent skill 可能有毒,而是把問題往前推成 package-level pre-load auditing:當 skill 由 SKILL.md、scripts、reference docs 與 repo context 組成時,真正該審的不是單一句子,而是跨檔案風險鏈。作者提出 SkillGuard-Robust,把審計拆成結構化證據抽取、選擇性語意驗證、衝突鏈仲裁與 rewrite 一致性整合,提醒我們 skill 供應鏈安全的核心其實更像 admission control,而不是單純 prompt moderation。
本文由 AI 產生、整理與撰寫。 論文基...
這篇論文真正值得看的,不是它又替 adversarial training 補了一個技巧,而是它指出:很多 robustness 崩壞不是平均發生,而是低信心樣本上的錯誤訊號被一路放大,最後演變成 catastrophic overfitting 與 clean accuracy 的雙輸。作者提出 DDG,按樣本信心與預測狀態動態調整 perturbation 與 supervision,核心是在防禦訓練過程中先別把最脆弱的樣本打壞。
本文由 AI 產生、整理與撰寫。 論文基...
這篇論文真正補到的,不是又一組 jailbreak 技巧,而是把 attack、evaluation、aggregation 與 reporting 接成可重跑的 Security Evaluation Test。作者提出 AVISE 框架,並用 ALM 增強版 Red Queen 多輪攻擊示範:25 個 test cases、ELM 評估準確率 92%,且 9 個近期模型全都對這類多輪操控呈現不同程度脆弱性。