Adversarial Arena 論文閱讀分析:真正稀缺的安全對齊資料,很多時候不是寫不出來,而是沒有被攻防互打逼出來
這篇論文的關鍵,不只是再收集一批 cyber 對齊資料,而是把 attacker 與 defender 的多輪對抗做成一個會持續產生標註對話、排名回饋與資料多樣性的 tournament flywheel。
2026 年 4 月 22 日
這篇論文的關鍵,不只是再收集一批 cyber 對齊資料,而是把 attacker 與 defender 的多輪對抗做成一個會持續產生標註對話、排名回饋與資料多樣性的 tournament flywheel。