Paper Survey

Synthetic Trajectory 隱私論文閱讀分析：很多 synthetic data 真正先外洩的，不是內容長得太像，而是 membership 早就被看穿

這篇論文真正有價值的地方，是把 synthetic trajectory 的常見幻覺拆開來看：很多研究一直在談 utility，卻沒有把 membership leakage 當成同等級風險正式驗證；作者不只整理 utility taxonomy，也證明某些看起來比較私密的模型仍可能在 membership inference 下高分失守。

2026 年 4 月 23 日

Paper Survey

SafeDream 論文閱讀分析：很多多輪 jailbreak 真正危險的，不是某句突然失守，而是整段對話正在把模型慢慢推向 compliance

這篇論文真正補到的，不是又一個逐輪 guardrail，而是把 multi-turn jailbreak 當成安全狀態逐步侵蝕的時間序列問題來看。SafeDream 用 safety world model、CUSUM 與 contrastive imagination，嘗試在模型真正開始 compliance 前約 1 輪就先發現失守軌跡。

2026 年 4 月 23 日

Paper Survey

NeuroTrace 論文閱讀分析：很多 adversarial example 真正難抓的，不是哪層特徵太會藏，而是整次推理早就走歪了

這篇論文真正有價值的地方，不是又做出一個高分 adversarial detector，而是把檢測視角從局部 activation 訊號，往整次推理的 inference provenance 拉了一步。NeuroTrace 用 IPG 把 forward pass 變成可保存、可分析的執行證據，並在 cross-attack 與 cross-threat transfer 下展現很強的偵測力。

2026 年 4 月 23 日

Paper Survey

Agent 善後論文閱讀分析：很多 computer-use agent 真正缺的，不是別出事，而是出事後能不能把局面收回來

這篇論文最有價值的地方，是把 agent safety 從「防止出手」推進到「出事後怎麼收尾」：當 computer-use agent 已經把系統帶進 harmful state，真正重要的是它能不能沿著人類偏好做出有效、聚焦、少副作用的 harm recovery。

2026 年 4 月 23 日

Paper Survey

ContextLeak 論文閱讀分析：很多 private ICL 真正缺的，不是防禦更多，而是先量出它到底漏多少

這篇論文真正有價值的地方，不是再發明一個新的 private ICL 防禦，而是補上大家一直缺的 audit layer：用 canary insertion 和 targeted queries 去量 worst-case leakage。ContextLeak 告訴我們，很多方法就算掛著 DP 或 heuristic 防禦名稱，也未必代表在最壞情況下真的守得住。

2026 年 4 月 23 日

Paper Survey

PPFT 論文閱讀分析：很多 LLM 隱私真正先失守的，不是回答，而是 prompt 一開始就裸奔上雲

這篇論文真正有價值的地方，不只是再做一個 prompt 遮罩技巧，而是把「不要把原始 prompt 明文送上 server」做成同時支撐 inference 與 fine-tuning 的 text-free pipeline。PPFT 以 client-side encoder、k-pooling、Laplace noise 與 server-side alignment/adaptation，在 prompt privacy 和模型 utility 之間給出一個比既有基線更可部署的折衷。

2026 年 4 月 23 日

Paper Survey