CREBench 論文閱讀分析：當 LLM 開始碰密碼學逆向工程，離真正的 autonomous reverser 還有多遠？

2026 年 4 月 10 日

本文由 AI 產生、整理與撰寫。

論文基本資訊

論文標題：CREBench: Evaluating Large Language Models in Cryptographic Binary Reverse Engineering
作者：Baicheng Chen、Yu Wang、Ziheng Zhou、Xiangru Liu、Juanru Li、Yilei Chen、Tianxing He
年份：2026
來源：arXiv 2604.03750
連結：https://arxiv.org/abs/2604.03750

先講結論：這篇 paper 在做什麼？

這篇論文要回答的問題很直接：當大家都在談 LLM 會不會做滲透、會不會找漏洞、會不會寫 exploit 的時候，模型到底有沒有能力面對更硬核、也更貼近底層安全研究的 cryptographic binary reverse engineering？

作者提出 CREBench，專門拿來測 LLM 做密碼學二進位逆向分析的能力。它不是單純問模型「這是 AES 還是 DES」，而是把任務一路拉到完整 CTF-style reverse engineering：你要辨識演算法、抽出 key / IV、重建 wrapper-level 行為，最後真的把 flag 解出來。

如果把這篇濃縮成一句話，就是：

這篇 paper 真正想量的，不是 LLM 會不會講 reverse engineering 的人話，而是它能不能在有 binary、有反編譯輸出、有工具互動的環境裡，真的把密碼學程式拆開來。

一、為什麼這題值得做？

逆向工程本來就是資安裡最吃經驗、也最難外包給「只會嘴」模型的工作之一。尤其一旦牽涉到密碼學實作，難度會再往上跳一層，因為你面對的不只是一般程式控制流程，而是：

高度結構化的演算法邏輯
編譯最佳化後被打散的 control/data flow
容易被混淆或拆分的 key material
需要靜態分析與動態驗證一起上的工作流

也就是說，這不是「模型看一眼 pseudocode 然後猜題」就能過的任務。 如果 LLM 真的能穩定處理這類 binary RE，它代表的能力邊界，會比一般 CTF 解題或 web exploit benchmark 更接近真實安全研究現場。

作者的切入點我覺得很對：現在很多 benchmark 不是太偏 toy problem，就是偏向 Web/AppSec workflow；但 binary RE，尤其 cryptographic RE，長期其實是被低估的一塊。

二、CREBench 怎麼組？它不是小玩具 benchmark

CREBench 的主體由 432 個 challenge 組成，來自三個維度的組合：

48 種標準加密演算法：包含 AES、DES、SM4、RC4 等
3 種不安全 key 使用情境：hard-coded keys、fragmented keys、weak pseudo-random keys
3 種逆向難度：O0、O3、Const-XOR

這個設計有兩個地方很關鍵。

第一，它不是直接拿現成 crypto library 下去包，而是作者手工重寫 48 種演算法，再驗證輸出正確。這樣做很麻煩，但能降低 contamination：模型不會只是背某個常見 library pattern。

第二，作者不是只靠 compiler optimization 來調難度，還加了 Const-XOR 這種會把 S-Box 等識別性常數在 runtime 才復原的 obfuscation。這讓很多靠 signature 掃描的靜態辨識法直接失靈。

論文裡還特地用 signsrch 去驗證這件事：在 O0 / O3 下它還能認出 20/48 個演算法，但到了 Const-XOR 幾乎只剩 1/48。這一刀很狠，也讓 benchmark 不只是「看你知不知道 crypto 名字」，而是真的逼你做分析。

三、它評的不是單點對錯，而是一整條 reverse engineering pipeline

這篇設計最好的地方，是它沒有把任務壓縮成單純 pass/fail，而是拆成四個層次：

Task 1：Algorithm identification —— 你能不能辨識這是什麼演算法
Task 2：Key / IV extraction —— 你能不能把 key material 真正找出來
Task 3：Wrapper-level reimplementation —— 你能不能把 binary 對外暴露的加密行為完整重建成 Python
Task 4：Flag recovery —— 最後能不能真的把 plaintext flag 解回來

這個分層超重要，因為它讓你知道模型到底卡在哪裡。

很多時候，模型其實能看出這像 AES，也可能能猜出某些 key reconstruction 線索，但一走到動態驗證、wrapper 邏輯還原、或最終腳本調通時就開始崩。沒有這種階梯式評分，你只會看到「失敗」，卻不知道它是敗在理解、抽取、還是 execution。

四、實驗方式也不是純聊天：它真的把模型放進 agent workflow

作者沒有把 LLM 關在文字問答盒子裡，而是採用類 ReAct 的 agentic framework，讓模型在 sandbox 裡用工具做事。輸入給模型的不只是 executable binary，還包含 Ghidra 反編譯的 pseudocode；模型可以透過結構化 JSON 輸出決定下一步分析與 tool action。

這點我覺得很合理，因為真正的 reverse engineering 從來不是閉眼讀題，而是：

看反編譯結果
試跑工具
驗證假設
改腳本
再回來修正理解

也就是說，CREBench 比較像是在測「LLM 作為 reverse engineering agent」的能力，而不只是測它知不知道幾個密碼學名詞。

五、主結果：最強模型也只到 64.03，跟人類專家還差很遠

論文最醒目的結果，是目前最好的模型 GPT-5.4 在 CREBench 上平均分數約 64.03 / 100，而且在 pass@3 設定下，最終只在大約 59% 的 challenge 中成功 recover flag。

對照之下，作者建立的人類專家基線是 92.19。

這個差距很有意思。它說明了兩件事：

第一，LLM 確實已經不是完全不會。 能過半數 challenge，代表它已經有一定程度的 binary RE 實戰能力。
第二，離真正成熟還差一大截。 尤其在 cryptographic RE 這種需要長鏈條分析、動靜態切換、與細節驗證的任務裡，人類專家仍然明顯更穩。

老實說，這個結果比那種「agent 在某 benchmark 上 90 幾分」更有現實感。因為它不像在賣神話，而是在告訴你：模型已經可以進場幫忙，但還遠不到能獨自扛完整 RE 工作。

六、這篇 paper 真正有價值的地方：它把失敗點照得很清楚

論文的一個重要觀察是：current LLMs 的相對弱點仍然在 dynamic analysis。

這超合理。因為靜態分析再難，至少還能靠 pattern recognition、語義推理、已知結構去硬拆；但動態分析要處理的是互動式驗證、環境操作、過程中不斷修正假設，這正是 agent reliability 最容易出事的地方。

換句話說，很多模型不是完全不知道自己看到什麼，而是：

知道大方向
能講出 plausible explanation
甚至能部分還原流程
但最後無法把猜測收斂成可執行、可驗證、可通關的完整解法

這也點出現在 agent security 與 cyber automation 一個很常見的錯覺：模型會講，不等於模型做得到；模型做出一半，不等於它能可靠走完整條 execution loop。

七、我怎麼看這篇：它不是在證明 LLM 很強，而是在幫大家劃能力邊界

我覺得 CREBench 最值得肯定的，不是它又造了一個分數榜，而是它把一塊過去比較模糊的能力邊界正式量出來了。

過去大家很容易把「會寫 exploit」「能看懂 decompiled code」「會做 CTF」混成同一種能力，但其實它們不是。尤其 cryptographic RE 有自己非常獨特的困難：

演算法識別不等於邏輯還原
還原邏輯不等於抽得出 key
抽得出 key 不等於 wrapper 行為重建正確
能寫出看起來合理的 code，不等於最後 flag 能通

CREBench 把這些步驟拆開後，你會更清楚看到：LLM 在 binary 安全研究裡，最有價值的角色目前比較像是高階協作分析員，而不是能獨立收尾的逆向工程師。

八、但這篇也有幾個要保留的地方

第一，它畢竟還是 benchmark。 即使 challenge 設計得很用心，也和真實 malware、packed binaries、反除錯、混合語言實作、或大型程式脈絡不完全一樣。
第二，它聚焦的是 cryptographic binaries。 這很有價值，但也代表結果不能直接外推成「LLM 整體 binary RE 能力就是如此」。
第三，Ghidra decompilation 這個前提很重要。 在真實世界裡，反編譯品質本身就是變數，模型吃到的 input 品質會直接影響結果。
第四，pass@3 這種設定仍然帶有 sampling advantage。 對實務風險來說，單次最穩能做到多少，可能比多次重抽後最好的那次更重要。

所以我會把這篇定位成：它非常適合拿來量能力邊界與研究趨勢，但不該被誤讀成「LLM 已經接近自動化取代人類逆向工程師」。

九、對資安圈真正的啟發是什麼？

這篇 paper 對資安圈的真正啟發，我覺得不是「哇 LLM 也會 reverse 了」，而是下面這幾件事：

binary RE 會是下一波更值得盯的 agent 能力面。 大家不能只盯 prompt injection 或 web exploit。
benchmark 要從知識問答轉向工具互動與長鏈條分析。 不然你只是在測模型會不會背答案。
安全風險評估要看 partial capability，不是只看 end-to-end 成功率。 因為一個能穩定辨識演算法、抽 key、寫半套腳本的模型，就已經足以大幅降低人類分析成本。
人機協作比「全自動取代」更像近期真實方向。 這篇結果其實很支持這個判斷。

總結

CREBench: Evaluating Large Language Models in Cryptographic Binary Reverse Engineering 是一篇很值得看的 paper，因為它沒有再重複「LLM 很強」那種空泛敘事，而是把一個更底層、更硬、更接近真實安全研究的問題拿出來認真量。

它最重要的訊息，我會這樣總結：

今天的 LLM 已經開始能碰 cryptographic binary reverse engineering，但它最像的是能加速人類分析的協作引擎，而不是已經成熟到能自己獨立收尾的 autonomous reverser。

如果你關心的是 agentic offensive capability、binary analysis、自動化逆向、或 AI 對高階安全研究工作的真實影響，這篇很值得放進待讀清單。

CREBench 論文閱讀分析：當 LLM 開始碰密碼學逆向工程，離真正的 autonomous reverser 還有多遠？

論文基本資訊

先講結論：這篇 paper 在做什麼？

一、為什麼這題值得做？

二、CREBench 怎麼組？它不是小玩具 benchmark

三、它評的不是單點對錯，而是一整條 reverse engineering pipeline

四、實驗方式也不是純聊天：它真的把模型放進 agent workflow

五、主結果：最強模型也只到 64.03，跟人類專家還差很遠

六、這篇 paper 真正有價值的地方：它把失敗點照得很清楚

七、我怎麼看這篇：它不是在證明 LLM 很強，而是在幫大家劃能力邊界

八、但這篇也有幾個要保留的地方

九、對資安圈真正的啟發是什麼？

總結

發佈留言取消回覆

You may also like

近期文章

廣告

文章分類

近期留言

論文基本資訊

先講結論：這篇 paper 在做什麼？

一、為什麼這題值得做？

二、CREBench 怎麼組？它不是小玩具 benchmark

三、它評的不是單點對錯，而是一整條 reverse engineering pipeline

四、實驗方式也不是純聊天：它真的把模型放進 agent workflow

五、主結果：最強模型也只到 64.03，跟人類專家還差很遠

六、這篇 paper 真正有價值的地方：它把失敗點照得很清楚

七、我怎麼看這篇：它不是在證明 LLM 很強，而是在幫大家劃能力邊界

八、但這篇也有幾個要保留的地方

九、對資安圈真正的啟發是什麼？

總結

發佈留言 取消回覆

You may also like

CyberExplorer 論文閱讀分析：當 Offensive Agent 不再只是解題，而是真的得在陌生環境裡自己找洞

The Autonomy Tax 論文閱讀分析：當你把 LLM Agent 防得更安全，為什麼它反而先失去行動能力？

近期文章

廣告

文章分類

近期留言

發佈留言取消回覆