Harmful Intent 偵測論文閱讀分析:真正難抓的,不是最刺眼的危險詞,而是那些合起來才開始危險的訊號
這篇論文真正補到的,不只是 harmful intent probe 的分數,而是很多即時安全監測一直在用錯的感測邏輯:真正危險的意圖,常常不是靠某一個高分 token 暴露,而是靠一整段彼此呼應的證據慢慢收斂出來。
2026 年 4 月 21 日
這篇論文真正補到的,不只是 harmful intent probe 的分數,而是很多即時安全監測一直在用錯的感測邏輯:真正危險的意圖,常常不是靠某一個高分 token 暴露,而是靠一整段彼此呼應的證據慢慢收斂出來。