AI Security

Synthetic Trajectory 隱私論文閱讀分析：很多 synthetic data 真正先外洩的，不是內容長得太像，而是 membership 早就被看穿

這篇論文真正有價值的地方，是把 synthetic trajectory 的常見幻覺拆開來看：很多研究一直在談 utility，卻沒有把 membership leakage 當成同等級風險正式驗證；作者不只整理 utility taxonomy，也證明某些看起來比較私密的模型仍可能在 membership inference 下高分失守。

2026 年 4 月 23 日

Paper Survey

SafeDream 論文閱讀分析：很多多輪 jailbreak 真正危險的，不是某句突然失守，而是整段對話正在把模型慢慢推向 compliance

這篇論文真正補到的，不是又一個逐輪 guardrail，而是把 multi-turn jailbreak 當成安全狀態逐步侵蝕的時間序列問題來看。SafeDream 用 safety world model、CUSUM 與 contrastive imagination，嘗試在模型真正開始 compliance 前約 1 輪就先發現失守軌跡。

2026 年 4 月 23 日

Paper Survey

NeuroTrace 論文閱讀分析：很多 adversarial example 真正難抓的，不是哪層特徵太會藏，而是整次推理早就走歪了

這篇論文真正有價值的地方，不是又做出一個高分 adversarial detector，而是把檢測視角從局部 activation 訊號，往整次推理的 inference provenance 拉了一步。NeuroTrace 用 IPG 把 forward pass 變成可保存、可分析的執行證據，並在 cross-attack 與 cross-threat transfer 下展現很強的偵測力。

2026 年 4 月 23 日

Paper Survey

MAD 論文閱讀分析：很多模型真正危險的，不是答案錯了，而是它早就不是用正常機制在做事

這篇論文真正重要的，不只是又做出一個 anomaly detector，而是把問題問對了：很多模型安全真正該檢查的，不只是 output 對不對，而是它是不是仍由正常、可信的內部機制產生。

2026 年 4 月 22 日

Paper Survey

Refute-or-Promote 論文閱讀分析：很多漏洞 AI 真正缺的，不是再多找幾個疑似洞，而是更狠地先把大多數假洞殺掉

Refute-or-Promote 真正重要的，不是又多一條 AI 找洞工作流，而是把 LLM-assisted vulnerability discovery 從「會不會報」拉回「能不能先大規模殺掉假洞」，把漏洞 AI 的核心瓶頸重新定義成 precision crisis。

2026 年 4 月 22 日

Paper Survey

Agentic AI Security 論文閱讀分析：真正危險的，從來不只是模型會不會胡說，而是它開始能自己規劃、記憶、調工具、一路做下去

這篇 survey 最值得記住的，不是它又整理了一份 agent 漏洞大全，而是它把問題定義得更成熟：當 AI 具備規劃、記憶、工具使用與長時間執行能力後，風險就不再只是回答錯誤，而是整條從 prompt、memory、tool、multi-agent communication 到 human approval 的執行鏈都會變成攻擊面。真正需要建的是控制面，而不是只補單點 guardrail。

2026 年 4 月 22 日

Paper Survey