LLM Security

MAD 論文閱讀分析：很多模型真正危險的，不是答案錯了，而是它早就不是用正常機制在做事

這篇論文真正重要的，不只是又做出一個 anomaly detector，而是把問題問對了：很多模型安全真正該檢查的，不只是 output 對不對，而是它是不是仍由正常、可信的內部機制產生。

2026 年 4 月 22 日

LLM API 資料外洩風險論文閱讀分析：別再拿 DP 與 membership inference 當成訓練資料抽取風險的萬用護身符

這篇論文最值得記住的，不是它又提出一種 memorization 指標，而是它把一件很多人搞混的事拆開講清楚：differential privacy 與 membership inference 量的是 distinguishability，不是 LLM API 被抽出訓練文本的真實成本。作者提出 (l, b)-inextractability，把風險轉成攻擊者平均需要多少次查詢才能誘發受保護片段，並指出固定 greedy、固定 top-k 的舊量測方式很容易低估最壞情況。

2026 年 4 月 22 日

Paper Survey

DEJA 論文閱讀分析：很多 RAG 真正危險的，不是突然拒答，而是開始穩定地講一堆沒用的正確廢話

DEJA 真正指出的，不只是 RAG 會不會被打到拒答，而是它可能在 retrieval 依舊成功、回答依舊流暢的情況下，穩定退化成低資訊量、低可用性的 soft failure。論文在 NQ、HotpotQA、FiQA 上讓惡意文件 retrieval success rate 超過 94%，SASR 最高達 92.27%，而 query paraphrasing、perplexity filtering 與擴大 context size 都難以有效緩解。

2026 年 4 月 22 日

Paper Survey

SAGE 論文閱讀分析：很多漏洞 AI 真正卡住的，不是完全看不懂，而是關鍵漏洞訊號在它腦內太小聲

SAGE 最有意思的地方，是把 LLM 漏洞偵測常見的失敗重新解釋成 signal submersion：模型不是完全沒看到漏洞，而是安全訊號在大量正常功能語意裡被淹掉了。

2026 年 4 月 22 日

Paper Survey

XSS 論文閱讀分析：很多 AI 生成攻擊樣本真正卡住的，不是變得不夠花，而是根本沒有真的還能打

這篇 XSS 論文最重要的不是證明 LLM 能不能生更多混淆 payload，而是把問題拉回 runtime validity：如果生成樣本沒有在瀏覽器裡保住原攻擊行為，那多半只是在生看起來像攻擊的字串。

2026 年 4 月 22 日

Paper Survey

SafeLM 論文閱讀分析：真正讓 federated LLM 比較可信的，不是把資料分散出去而已，而是別讓隱私、對齊與亂講各自掉線

這篇 SafeLM 最值得看的，不是它又把 trustworthy AI 變成一張更大的願望清單，而是它直接承認 federated LLM 的真實問題從來不是單點風險：你不只要防梯度與更新洩漏，還要一起管 hallucination、惡意輸入與聚合被帶偏。論文的價值，在於把 privacy、security、misinformation 與 adversarial robustness 拉回同一套系統設計來看。

2026 年 4 月 22 日

Paper Survey