2026 年 – 第 14 頁 – SecTools.tw 2.0

TrEEStealer 論文閱讀分析：很多團隊以為把模型塞進 TEE 就安全了，但控制流可能早就把整棵樹洩光

這篇論文真正刺中的，不是哪個 decision tree library 寫得不夠漂亮，而是很多人對 TEE 的保密想像本來就放錯地方：如果模型推論仍帶著 data-dependent control flow，那 branch history、page trace 與 performance counter 這些執行痕跡，就可能把整棵樹慢慢洩出去。作者在 SGX 與 SEV 上實作 TrEEStealer，並對 OpenCV、mlpack、emlearn 做到高保真抽取，表 3 的 10 組模型甚至全部達到 1 − R = 1.00。

2026 年 4 月 22 日

Paper Survey

LLM Tutor 洩答論文閱讀分析：很多教學助手真正先守不住的，不是正確率，而是答案邊界

這篇論文最值得注意的，不是它再次提醒 LLM tutor 可能會洩答，而是它把問題從一般教學品質拉回 adversarial robustness：真正該量的，是當學生開始像攻擊者一樣多輪施壓、情境操弄、慢慢磨穿邊界時，tutor 還能不能守住 final answer。作者發現 contextual manipulation 平均 leakage rate 高達 74%，而 fine-tuned adversarial student 更可把 Qwen-32B 的 tutor leakage 從 4% 拉到 70%。

2026 年 4 月 22 日

Paper Survey

ARES 論文閱讀分析：很多安全對齊真正先壞掉的，不是模型單點失守，而是 policy 跟 reward model 一起誤判了同一件危險事

這篇論文最值得看的地方，不是又做了一套 jailbreak framework，而是把 RLHF 系統裡 policy model 與 reward model 的共同失效面抓出來：如果 actor 跟 judge 共享同一種安全盲點，整條 alignment pipeline 會一起鬆手。

2026 年 4 月 22 日

Paper Survey

Why JD Can’t Encrypt 論文閱讀分析：真正讓機密上報的，常常不是加密失敗，而是把加密放進錯的流程

這篇論文最值得記住的，不是它質疑某個加密工具夠不夠安全，而是它把一個常被混在一起的問題拆開：technical security 與 real-world confidentiality 不是同一件事。Signal 可以沒有被破解，但只要權力結構、設備整合、流程例外與錯誤安全感把內容送到不該去的人手裡，最後仍然是保密失敗。

2026 年 4 月 22 日

Paper Survey

Owner-Harm 論文閱讀分析：很多 Agent 真正先傷到的，往往不是別人，而是部署它的自己人

這篇論文最值得注意的，不是它又多列幾個 agent 風險，而是它把一個很多產品團隊其實已經遇到、卻沒被正式建模的問題講清楚：agent 很可能先傷害的不是外部世界，而是自己的 deployer。作者把這類風險定義為 Owner-Harm，並指出某套在 AgentHarm 上達 100% TPR / 0% FPR 的 safety system，面對 AgentDojo 中 prompt-injection-mediated owner-harm tasks 時卻只剩 14.8%。

2026 年 4 月 22 日

Paper Survey

LLM API 資料外洩風險論文閱讀分析：別再拿 DP 與 membership inference 當成訓練資料抽取風險的萬用護身符

這篇論文最值得記住的，不是它又提出一種 memorization 指標，而是它把一件很多人搞混的事拆開講清楚：differential privacy 與 membership inference 量的是 distinguishability，不是 LLM API 被抽出訓練文本的真實成本。作者提出 (l, b)-inextractability，把風險轉成攻擊者平均需要多少次查詢才能誘發受保護片段，並指出固定 greedy、固定 top-k 的舊量測方式很容易低估最壞情況。

2026 年 4 月 22 日

Paper Survey

Arbiter-K 論文閱讀分析：很多 agent 真正缺的，不是再多一道 guard，而是先有一個真的能執法的 kernel

這篇論文真正有價值的地方，不是在 agent 外面再多包一層 guardrail，而是直接質疑整個架構：為什麼我們一直讓 LLM 站在控制流中央，然後才用補丁式政策去收爛攤子？作者提出 Arbiter-K，把模型降級成 proposal generator，讓 deterministic kernel 透過 Semantic ISA、Security Context Registry 與 Instruction Dependency Graph 在 runtime 做 taint-aware governance。實驗顯示，OpenClaw 原生 policy 只攔下 6.17% 的違規操作，但整合 Arbiter-K 後可到 92.95%；NanoBot 也從 1.41% 拉到 94.20%。這篇真正提醒的是：agent security 若想像 production system，就不能只靠比較會勸人的 guard，得先有真的能執法的 kernel。

2026 年 4 月 22 日

Paper Survey

Bitcoin Fraud Detection 論文閱讀分析：很多團隊真正該怕的，不是圖不夠大，而是交易圖本身早就不再值得信任

這篇論文真正有價值的地方，不是在 Bitcoin fraud detection 上再提一個新模型，而是把大家默認「交易是圖，所以 GNN 應該更強」這個前提整個拆開重驗。作者在更嚴格的 temporal-shift 與 leakage-free 設定下發現，raw-feature Random Forest 可達 F1 0.821，明顯高於最強的 GraphSAGE 0.689 ± 0.017，甚至連隨機打亂的邊都比真實交易圖高出 8.9 個 F1 點。這篇真正提醒的是：在風險偵測裡，圖結構不一定是資產，它也可能是把模型帶偏的 liability。

2026 年 4 月 22 日

Paper Survey

DEJA 論文閱讀分析：很多 RAG 真正危險的，不是突然拒答，而是開始穩定地講一堆沒用的正確廢話

DEJA 真正指出的，不只是 RAG 會不會被打到拒答，而是它可能在 retrieval 依舊成功、回答依舊流暢的情況下，穩定退化成低資訊量、低可用性的 soft failure。論文在 NQ、HotpotQA、FiQA 上讓惡意文件 retrieval success rate 超過 94%，SASR 最高達 92.27%，而 query paraphrasing、perplexity filtering 與擴大 context size 都難以有效緩解。

2026 年 4 月 22 日

Paper Survey

Dual-Guard 論文閱讀分析：很多 AIGC 治理真正缺的，不是再多一個 watermark，而是知道它哪裡被改過

這篇論文真正有價值的地方，不是再證明一次 watermark 可以驗出 AI 圖，而是把 provenance 驗證、抗 reprompt / diffusion editing 與區域級 tamper localization 接成同一套內容完整性管線。作者在 4,000 張 provenance suite 上做到 AUC 1.000，在 2,400-sample benchmark 上對 reprompt 與 DiffEdit 都達到 1.000 auth reject，對 local tamper 達到 0.999，同時 clean false rejection 和 false alarm 只有 0.003 與 0.001。

2026 年 4 月 22 日

2026

TrEEStealer 論文閱讀分析：很多團隊以為把模型塞進 TEE 就安全了，但控制流可能早就把整棵樹洩光

LLM Tutor 洩答論文閱讀分析：很多教學助手真正先守不住的，不是正確率，而是答案邊界

ARES 論文閱讀分析：很多安全對齊真正先壞掉的，不是模型單點失守，而是 policy 跟 reward model 一起誤判了同一件危險事

Why JD Can’t Encrypt 論文閱讀分析：真正讓機密上報的，常常不是加密失敗，而是把加密放進錯的流程

Owner-Harm 論文閱讀分析：很多 Agent 真正先傷到的，往往不是別人，而是部署它的自己人

LLM API 資料外洩風險論文閱讀分析：別再拿 DP 與 membership inference 當成訓練資料抽取風險的萬用護身符

Arbiter-K 論文閱讀分析：很多 agent 真正缺的，不是再多一道 guard，而是先有一個真的能執法的 kernel

Bitcoin Fraud Detection 論文閱讀分析：很多團隊真正該怕的，不是圖不夠大，而是交易圖本身早就不再值得信任

DEJA 論文閱讀分析：很多 RAG 真正危險的，不是突然拒答，而是開始穩定地講一堆沒用的正確廢話

Dual-Guard 論文閱讀分析：很多 AIGC 治理真正缺的，不是再多一個 watermark，而是知道它哪裡被改過

近期文章

廣告

文章分類

近期留言