Ransomware 加密迴圈論文閱讀分析:很多逆向真正缺的,不是再多一份 signature,而是抓住攻擊者很難藏掉的加密特徵

本文由 AI 產生、整理與撰寫。

論文基本資訊

  • 論文標題:Detecting Avalanche Effect in Adversarial Settings: Spotting the Encryption Loops in Ransomware
  • 作者:Nanqing Luo、Xusheng Li、Haizhou Wang、Shuangyi Zhu、Yuan Ma、Peng Liu
  • 年份:2026
  • 來源:arXiv:2604.24131
  • 論文連結:https://arxiv.org/abs/2604.24131
  • DOI:10.48550/arXiv.2604.24131
  • 主題:Ransomware Analysis、Malware Reverse Engineering、Encryption Loop Detection、Adversarial Evasion、Statistical Testing、Binary Analysis

很多人談 ransomware 分析時,重點會放在家族歸因、IOC、加殼、anti-analysis 或 decryptor。這些都重要,但如果你真的要把樣本拆開看懂,最後還是會卡在一個很硬的問題上:真正負責加密受害者檔案的那段 loop,到底藏在哪裡?

這篇論文有意思的地方,在於它不是再去堆 signature,也不是再做一次 code similarity,而是抓住一個更難被繞過的東西:只要勒索軟體真的在做可靠加密,它就很難逃掉 avalanche effect 這個密碼學副作用。

這篇真正想補的洞,不是「怎麼猜哪段程式像加密」,而是「怎麼抓一個就算被混淆、被改寫、被刻意對抗,仍然很難從行為上假裝不存在的加密特徵」。

這篇在打哪個痛點?

對 ransomware reverse engineering 來說,找出 encryption loop 是核心任務。因為只有真的把那段 loop 抓出來,你才有機會往下理解:

  • 它用了什麼加密 API 或自製 cipher
  • session key、IV、public key、file metadata 怎麼流動
  • 受害檔案格式被改成什麼樣子
  • 未來有沒有機會做 decryptor、recovery 或高品質 detection

問題是,這件事一直很麻煩。傳統路線大致有三種:

  • code similarity:看起來像 crypto code 就標記,但容易高誤報
  • signature / heuristic:對新變種與陌生演算法不夠 scalable
  • avalanche-inspired 檢測:方向對,但既有方法其實沒有真的檢查 avalanche effect 本身

作者點名先前的 CipherXRay 雖然受 avalanche effect 啟發,但它實際上只是在抓一種 ripple effect:也就是「如果明文某個 bit 改變,密文很多 bit 都會受到 taint 傳播影響」。問題在於這只是一個必要但不充分的條件。

換句話說,它抓到的是『看起來像雪崩』,不是『真的發生了雪崩』。 而在對抗場景裡,這種差異會出事。

作者最重要的一刀:別再看 ripple effect,要直接驗 avalanche effect 本人

這篇最值得記住的地方,是它把檢測邏輯往前推了一步。作者主張,如果你的目標是定位 ransomware 裡真正的 encryption loop,那你不能只滿足於抓到某種「資料擾動很多」的表象,因為那很容易被對手故意做假訊號帶偏。

他們的核心主張很直接:

真正值得檢查的,是當輸入翻動 1 bit 時,輸出 bit 翻轉是否接近密碼學上預期的統計分佈,而不是只看資料流擴散得夠不夠熱鬧。

這也是這篇和很多「行為像就算」方法最大的分水嶺。前者是在看 failure-resistant 的密碼學性質,後者則還停在 pattern matching。

為什麼舊方法會被繞?因為對手可以故意製造看起來很像的漣漪

論文裡一個很關鍵的論點是:如果檢測器只盯著 ripple effect,那 ransomware 作者就能插入大量互相抵消的 buffer 操作,刻意把資料流搞得很花,讓檢測器在一堆假熱點裡淹死。

這種攻擊不是那種很理論、很學術的紙上 evasions,而是相當實際的思路:你不需要消除加密本身,只要先讓分析者在路上迷路就夠了。

作者對 CipherXRay 的批評,其實很值得藍隊記住:很多 detection 之所以脆,不是因為它完全沒有抓到真實世界訊號,而是它抓到的那個訊號太像 proxy,於是攻擊者可以花力氣去操弄 proxy,而不必真的改變核心惡意行為。

這篇怎麼解?用 record-and-replay 把統計檢定真的做起來

作者的方法核心不是單一 classifier,而是一條比較工程化的 workflow。它大致分三階段:

  • Phase I:先用 heuristics 找 input / output
  • Phase II:對疑似 loop 做 record-and-replay,重建可反覆測試的執行環境
  • Phase III:做統計檢定,確認這段 loop 的輸出翻轉分佈是否符合 avalanche effect

這裡最重要的不是「用了統計」,而是它真的把 malware analysis 裡通常很少被完整滿足的重播條件補起來了。因為你若要驗證「翻 1 bit 後輸出大約有一半 bit 改變」,本來就不可能只跑一次就下結論;你必須能夠在接近同一個執行狀態下反覆重播那段 loop。

作者採用的關鍵工具是 Shapiro–Wilk normality test。直白講,他們不是只憑肉眼看「翻得很多」就算,而是要求這種 bit flip 效應在統計上站得住腳。

很多 ransomware 檢測真正缺的,不是再多一個 YARA-like 特徵,而是把「這東西是不是加密 loop」這個判斷,拉回可以重播、可以量測、可以被統計檢定的層次。

結果怎麼樣?數字不只是漂亮,而且剛好打在分析流程最痛的地方

作者先在 benign programs 上驗證 soundness / completeness:資料集裡同時包含 encryption、hashing、compression、CRC 相關 loop,讓正負樣本都有。

結果是:

  • 0.0% false negative rate
  • 1.1% false positive rate

這個組合很有意思。對 reverse engineering 來說,漏掉真正的 encryption loop 常常比多看幾個可疑點更痛,所以 0% FNR 很有份量。另一方面,1.1% FPR 也意味著這套方法還不是神諭,但已經低到足以大幅減少人工分析負擔。

更重要的是,作者沒有停在玩具資料。把工具拉去處理真實 ransomware 樣本時,它成功分析了 10 個代表性家族,平均每個樣本抓出 3.2 個 encryption loops,而且作者手動驗證後指出沒有看到 false positive / false negative。

這種結果的價值在於:它不是只告訴你「理論上可行」,而是表示這套路徑真的有機會變成惡意程式分析流程裡的省時工具。

我覺得這篇最強的,不只是準,而是它在對抗視角下重設了檢測標的

如果只看 abstract,你可能會以為這只是「用 avalanche effect 找 ransomware encryption loop」。但我覺得真正值得看的,不是它借了哪個密碼學概念,而是它對檢測標的的重新定義:

  • 不是找像 crypto 的 code
  • 不是找像擴散 的 taint
  • 而是找具有 secure encryption 統計性質 的實際 loop

這個轉向很重要,因為它更接近「攻擊者很難不留下的成本」。如果對手還要真的完成高品質檔案加密,他就很難把 avalanche effect 整個拿掉;但他可以很輕易在外圍加入誤導分析者的垃圾結構。

這和很多別的安全問題其實很像:防守方最該盯的,不是最容易觀察的訊號,而是對手最難在不犧牲能力前提下抹掉的訊號。

這篇也不是沒邊界

當然,這篇不是說從此 ransomware RE 就自動化完成。從論文內容來看,至少還有幾個實務邊界值得注意:

  • record-and-replay 對 snapshot fidelity 的要求很高,工程上不便宜
  • 複雜控制流仍可能帶來少量 false positives
  • 它主要幫你找 encryption loops,不等於直接幫你還原整個 key lifecycle 或 decryptor
  • 若攻擊者刻意改成弱加密、非標準加密或更怪的檔案破壞邏輯,方法的可泛化性還要持續觀察

但這些邊界不會削弱它的核心貢獻。相反地,它們更說明這篇不是在賣萬靈丹,而是在補一個過去真的很缺、而且補法相對扎實的分析環節。

我怎麼看這篇的份量?

我會把它歸類成那種不是最華麗,但很像真正能幫分析師少熬幾個夜的論文。

它厲害的地方,不在於把 ransomware 又描述得更可怕,而在於它直接碰一個長期很土、但很值錢的問題:你怎麼在 binary-only、對抗性、可能混淆的條件下,快速找到那個真正值得逆向的核心加密 loop?

而且作者不是靠一句「我們用 AI 學到了」交差,而是把檢測目標、對抗模型、重播條件與統計判斷一整套串起來。這種論文對實務人比較有營養,因為你能看見它到底在拿什麼換準確率。

對實務最值得帶走的一句話

很多 ransomware reverse engineering 真正缺的,不是再多一份 signature,而是抓住一個攻擊者就算想藏,也很難在不犧牲加密效果的前提下完全藏掉的訊號。

一句話總結

這篇論文最值得看的地方,不是它說 avalanche effect 很重要,而是它把這件事從靈感變成可重播、可統計檢驗、而且能在真實 ransomware 家族上工作的分析方法:別再只看像不像加密,直接去抓那段無法輕易偽裝的加密行為本身。

You may also like