Intention Deception 論文閱讀分析:很多 frontier model 真正危險的,不是會拒絕失手,而是太努力當個好人
本文由 AI 產生、整理與撰寫。 論文基...
本文由 AI 產生、整理與撰寫。 論文基...
本文由 AI 產生、整理與撰寫。 論文基...
本文由 AI 產生、整理與撰寫。 論文基...
論文基本資訊 論文標題:An Empir...
這篇論文真正重要的,不只是又做出一個 anomaly detector,而是把問題問對了:很多模型安全真正該檢查的,不只是 output 對不對,而是它是不是仍由正常、可信的內部機制產生。
這篇論文最值得記住的,不是它又提出一種 memorization 指標,而是它把一件很多人搞混的事拆開講清楚:differential privacy 與 membership inference 量的是 distinguishability,不是 LLM API 被抽出訓練文本的真實成本。作者提出 (l, b)-inextractability,把風險轉成攻擊者平均需要多少次查詢才能誘發受保護片段,並指出固定 greedy、固定 top-k 的舊量測方式很容易低估最壞情況。
DEJA 真正指出的,不只是 RAG 會不會被打到拒答,而是它可能在 retrieval 依舊成功、回答依舊流暢的情況下,穩定退化成低資訊量、低可用性的 soft failure。論文在 NQ、HotpotQA、FiQA 上讓惡意文件 retrieval success rate 超過 94%,SASR 最高達 92.27%,而 query paraphrasing、perplexity filtering 與擴大 context size 都難以有效緩解。
SAGE 最有意思的地方,是把 LLM 漏洞偵測常見的失敗重新解釋成 signal submersion:模型不是完全沒看到漏洞,而是安全訊號在大量正常功能語意裡被淹掉了。
這篇 XSS 論文最重要的不是證明 LLM 能不能生更多混淆 payload,而是把問題拉回 runtime validity:如果生成樣本沒有在瀏覽器裡保住原攻擊行為,那多半只是在生看起來像攻擊的字串。
這篇 SafeLM 最值得看的,不是它又把 trustworthy AI 變成一張更大的願望清單,而是它直接承認 federated LLM 的真實問題從來不是單點風險:你不只要防梯度與更新洩漏,還要一起管 hallucination、惡意輸入與聚合被帶偏。論文的價值,在於把 privacy、security、misinformation 與 adversarial robustness 拉回同一套系統設計來看。