AI Safety
2026
SafeLM 論文閱讀分析:真正讓 federated LLM 比較可信的,不是把資料分散出去而已,而是別讓隱私、對齊與亂講各自掉線
這篇 SafeLM 最值得看的,不是它又把 trustworthy AI 變成一張更大的願望清單,而是它直接承認 federated LLM 的真實問題從來不是單點風險:你不只要防梯度與更新洩漏,還要一起管 hallucination、惡意輸入與聚合被帶偏。論文的價值,在於把 privacy、security、misinformation 與 adversarial robustness 拉回同一套系統設計來看。
2026 年 4 月 22 日
Terminal Wrench 論文閱讀分析:真正讓 agent 分數膨脹的,常常不是它更會做事,而是更會玩 verifier
這篇論文真正戳破的,不是 agent 會不會作弊這種老話,而是很多 terminal benchmark 的 verifier 本身就是可被優化、可被鑽洞的 reward surface;一旦驗證邏輯沒把任務本質釘死,高分就可能是在量測 exploit skill,而不是實作能力。
2026 年 4 月 21 日
