LLM Tutor 洩答論文閱讀分析:很多教學助手真正先守不住的,不是正確率,而是答案邊界
這篇論文最值得注意的,不是它再次提醒 LLM tutor 可能會洩答,而是它把問題從一般教學品質拉回 adversarial robustness:真正該量的,是當學生開始像攻擊者一樣多輪施壓、情境操弄、慢慢磨穿邊界時,tutor 還能不能守住 final answer。作者發現 contextual manipulation 平均 leakage rate 高達 74%,而 fine-tuned adversarial student 更可把 Qwen-32B 的 tutor leakage 從 4% 拉到 70%。
