Safety Benchmarks

這篇論文真正補到的，不是再發明一個更聰明的 guard model，而是把高風險 agent 裡那些本來就能形式化的政策，從 prompt 與常識判斷裡抽出來，改成可驗證、可審計、可在執行時硬鎖住的 symbolic guardrails。

2026 年 4 月 21 日

Symbolic Guardrails 論文閱讀分析：很多高風險 agent 真正缺的，不是更會想，而是先把不該做的事硬鎖住