Safety Evaluation

這篇 report 真正值得看的，不是哪家 guardrail 名次排第幾，而是它把一個 production 現實攤開來看：agent 安全防線最難的，往往不是看出明顯攻擊，而是在高模糊邊界樣本上仍維持高攔截率，同時別把正常工作一起誤殺。

2026 年 4 月 29 日

Paper Survey

HarmfulSkillBench 論文閱讀分析：真正危險的 skill，未必會偷你的資料，它也可能只是把壞事包成一鍵可裝的能力

這篇論文真正補上的，不是 skill 裡有沒有 prompt injection，而是另一個更容易被低估的面向：如果 skill 本身的 intended functionality 就是 cyber attack、詐欺、隱私侵犯或高風險決策自動化，那 agent 其實是在被公開 skill 生態系統化地武裝。

2026 年 4 月 21 日

Safety Evaluation

2026

AI Agent Guardrails 論文閱讀分析：很多防線真正缺的，不是更會喊危險，而是別把正常工作一起掐死

HarmfulSkillBench 論文閱讀分析：真正危險的 skill，未必會偷你的資料，它也可能只是把壞事包成一鍵可裝的能力

近期文章

廣告

文章分類

近期留言

Safety Evaluation

2026

AI Agent Guardrails 論文閱讀分析：很多防線真正缺的，不是更會喊危險，而是別把正常工作一起掐死

GuardPhish 論文閱讀分析：很多 open-source LLM 真正危險的，不是看不出 phishing，而是看得出來還是照樣幫你寫

HarmfulSkillBench 論文閱讀分析：真正危險的 skill，未必會偷你的資料，它也可能只是把壞事包成一鍵可裝的能力

近期文章

廣告

文章分類

近期留言