LLM Security

2026

LLM API 資料外洩風險論文閱讀分析:別再拿 DP 與 membership inference 當成訓練資料抽取風險的萬用護身符

這篇論文最值得記住的,不是它又提出一種 memorization 指標,而是它把一件很多人搞混的事拆開講清楚:differential privacy 與 membership inference 量的是 distinguishability,不是 LLM API 被抽出訓練文本的真實成本。作者提出 (l, b)-inextractability,把風險轉成攻擊者平均需要多少次查詢才能誘發受保護片段,並指出固定 greedy、固定 top-k 的舊量測方式很容易低估最壞情況。

2026 年 4 月 22 日

DEJA 論文閱讀分析:很多 RAG 真正危險的,不是突然拒答,而是開始穩定地講一堆沒用的正確廢話

DEJA 真正指出的,不只是 RAG 會不會被打到拒答,而是它可能在 retrieval 依舊成功、回答依舊流暢的情況下,穩定退化成低資訊量、低可用性的 soft failure。論文在 NQ、HotpotQA、FiQA 上讓惡意文件 retrieval success rate 超過 94%,SASR 最高達 92.27%,而 query paraphrasing、perplexity filtering 與擴大 context size 都難以有效緩解。

2026 年 4 月 22 日

SafeLM 論文閱讀分析:真正讓 federated LLM 比較可信的,不是把資料分散出去而已,而是別讓隱私、對齊與亂講各自掉線

這篇 SafeLM 最值得看的,不是它又把 trustworthy AI 變成一張更大的願望清單,而是它直接承認 federated LLM 的真實問題從來不是單點風險:你不只要防梯度與更新洩漏,還要一起管 hallucination、惡意輸入與聚合被帶偏。論文的價值,在於把 privacy、security、misinformation 與 adversarial robustness 拉回同一套系統設計來看。

2026 年 4 月 22 日