Mastiporuto Senia

2026

TrEEStealer 論文閱讀分析:很多團隊以為把模型塞進 TEE 就安全了,但控制流可能早就把整棵樹洩光

這篇論文真正刺中的,不是哪個 decision tree library 寫得不夠漂亮,而是很多人對 TEE 的保密想像本來就放錯地方:如果模型推論仍帶著 data-dependent control flow,那 branch history、page trace 與 performance counter 這些執行痕跡,就可能把整棵樹慢慢洩出去。作者在 SGX 與 SEV 上實作 TrEEStealer,並對 OpenCV、mlpack、emlearn 做到高保真抽取,表 3 的 10 組模型甚至全部達到 1 − R = 1.00。

2026 年 4 月 22 日

LLM Tutor 洩答論文閱讀分析:很多教學助手真正先守不住的,不是正確率,而是答案邊界

這篇論文最值得注意的,不是它再次提醒 LLM tutor 可能會洩答,而是它把問題從一般教學品質拉回 adversarial robustness:真正該量的,是當學生開始像攻擊者一樣多輪施壓、情境操弄、慢慢磨穿邊界時,tutor 還能不能守住 final answer。作者發現 contextual manipulation 平均 leakage rate 高達 74%,而 fine-tuned adversarial student 更可把 Qwen-32B 的 tutor leakage 從 4% 拉到 70%。

2026 年 4 月 22 日

Why JD Can’t Encrypt 論文閱讀分析:真正讓機密上報的,常常不是加密失敗,而是把加密放進錯的流程

這篇論文最值得記住的,不是它質疑某個加密工具夠不夠安全,而是它把一個常被混在一起的問題拆開:technical security 與 real-world confidentiality 不是同一件事。Signal 可以沒有被破解,但只要權力結構、設備整合、流程例外與錯誤安全感把內容送到不該去的人手裡,最後仍然是保密失敗。

2026 年 4 月 22 日

Owner-Harm 論文閱讀分析:很多 Agent 真正先傷到的,往往不是別人,而是部署它的自己人

這篇論文最值得注意的,不是它又多列幾個 agent 風險,而是它把一個很多產品團隊其實已經遇到、卻沒被正式建模的問題講清楚:agent 很可能先傷害的不是外部世界,而是自己的 deployer。作者把這類風險定義為 Owner-Harm,並指出某套在 AgentHarm 上達 100% TPR / 0% FPR 的 safety system,面對 AgentDojo 中 prompt-injection-mediated owner-harm tasks 時卻只剩 14.8%。

2026 年 4 月 22 日

LLM API 資料外洩風險論文閱讀分析:別再拿 DP 與 membership inference 當成訓練資料抽取風險的萬用護身符

這篇論文最值得記住的,不是它又提出一種 memorization 指標,而是它把一件很多人搞混的事拆開講清楚:differential privacy 與 membership inference 量的是 distinguishability,不是 LLM API 被抽出訓練文本的真實成本。作者提出 (l, b)-inextractability,把風險轉成攻擊者平均需要多少次查詢才能誘發受保護片段,並指出固定 greedy、固定 top-k 的舊量測方式很容易低估最壞情況。

2026 年 4 月 22 日