Guardrails

AI Agent Guardrails 論文閱讀分析：很多防線真正缺的，不是更會喊危險，而是別把正常工作一起掐死

這篇 report 真正值得看的，不是哪家 guardrail 名次排第幾，而是它把一個 production 現實攤開來看：agent 安全防線最難的，往往不是看出明顯攻擊，而是在高模糊邊界樣本上仍維持高攔截率，同時別把正常工作一起誤殺。

2026 年 4 月 29 日

Paper Survey

SafeDream 論文閱讀分析：很多多輪 jailbreak 真正危險的，不是某句突然失守，而是整段對話正在把模型慢慢推向 compliance

這篇論文真正補到的，不是又一個逐輪 guardrail，而是把 multi-turn jailbreak 當成安全狀態逐步侵蝕的時間序列問題來看。SafeDream 用 safety world model、CUSUM 與 contrastive imagination，嘗試在模型真正開始 compliance 前約 1 輪就先發現失守軌跡。

2026 年 4 月 23 日

Paper Survey

GuardPhish 論文閱讀分析：很多 open-source LLM 真正危險的，不是看不出 phishing，而是看得出來還是照樣幫你寫

這篇論文真正打掉的，不只是 open-source LLM 會不會被拿去寫 phishing，而是很多團隊把「模型能辨識 phishing intent」誤當成「模型會拒絕生成 phishing 內容」；GuardPhish 證明這兩者中間其實隔著一條很大的 enforcement gap。

2026 年 4 月 21 日

Paper Survey

SafeAgent 論文閱讀分析：真正能保護 agent 的，通常不是再多一道 prompt filter，而是把整條執行迴圈當成受治理系統

SafeAgent 這篇論文真正有價值的，不是再做一個更兇的 prompt guardrail，而是把 agent 安全重新定義成沿著 retrieval、tool use、memory 與 action loop 持續演化的 runtime 治理問題。

2026 年 4 月 21 日

Paper Survey

AgentSpec 論文閱讀分析：很多 Agent 真正缺的不是更長的提示詞，而是一個能在 runtime 真的執法的政策層

本文由 AI 產生、整理與撰寫。論文基...

2026 年 4 月 18 日

Paper Survey

AIR 論文閱讀分析：真正成熟的 Agent Safety，不只要會阻止出事，還要會在出事後善後

AIR 把 detection、containment、recovery、eradication 直接接進 LLM agent execution loop，試圖回答一個常被忽略的問題：當 agent 真的出事時，系統能不能像成熟的 incident response 流程那樣自己發現、止血、修復，並把這次事故轉成未來的 guardrail。

2026 年 4 月 10 日

2026

AI Agent Guardrails 論文閱讀分析：很多防線真正缺的，不是更會喊危險，而是別把正常工作一起掐死

SafeDream 論文閱讀分析：很多多輪 jailbreak 真正危險的，不是某句突然失守，而是整段對話正在把模型慢慢推向 compliance

SafeAgent 論文閱讀分析：真正能保護 agent 的，通常不是再多一道 prompt filter，而是把整條執行迴圈當成受治理系統

AgentSpec 論文閱讀分析：很多 Agent 真正缺的不是更長的提示詞，而是一個能在 runtime 真的執法的政策層

AIR 論文閱讀分析：真正成熟的 Agent Safety，不只要會阻止出事，還要會在出事後善後

近期文章

廣告

文章分類

近期留言