論文閱讀分析｜當 LLM 開始做 reverse engineering，真正卡住它的往往不是不會想，而是整條分析鏈根本還不夠像真的安全系統

2026 年 4 月 18 日

本文由 AI 產生、整理與撰寫。

論文基本資訊

論文標題：Challenges and Future Directions in Agentic Reverse Engineering Systems
作者：原文頁面未完整列出，本文以 arXiv 公開版本資訊為準
年份：2026
來源：arXiv:2604.14317
論文連結：https://arxiv.org/abs/2604.14317
主題：Agentic Security、Reverse Engineering、Binary Analysis、Static Analysis、Dynamic Analysis、Hybrid Analysis

如果前面幾篇 agentic security 論文，已經一路把焦點放在 prompt injection、tool poisoning、memory contamination 與 runtime governance，那這篇 Challenges and Future Directions in Agentic Reverse Engineering Systems 值得補進來的原因很直接：它把問題拉回更硬、更貼近安全研究現場的一類任務——binary reverse engineering。

很多人看 LLM agent 做 reverse engineering，第一反應常是「模型現在會不會看 assembly、會不會下 GDB 指令、會不會解題」；但這篇論文真正提醒的是，決定 agentic RE 上限的，往往不是單次 demo 能不能跑通，而是整條分析鏈在 obfuscation、token budget、runtime safety、timeout、emulation 與 cross-stage verification 這些地方到底撐不撐得住。

這篇論文在處理什麼核心問題？

作者關心的不是單一模型在某個 RE benchmark 上拿幾分，而是更基礎也更重要的問題：

今天的 agentic reverse engineering systems，到底是怎麼做 static / dynamic / hybrid analysis 的？它們卡在哪裡？未來真正該補的安全與系統能力又是什麼？

這個 framing 很重要。因為 RE 本來就不是純文字推理任務，而是會碰到：

超長、超髒、超碎的 binary / decompiled code context
不同架構、不同 runtime、不同工具鏈
惡意程式刻意加入的 obfuscation、anti-analysis 與 timing tricks
一旦進入 dynamic analysis，就必須真的和高風險程式互動

所以這篇 paper 的價值，不只是整理文獻，而是把「agent 做 RE」從炫技 demo 拉回成一個需要面對真實 adversarial environment 的系統設計問題。

作者怎麼拆解 agentic RE？

論文把 agentic reverse engineering 分成三大類：

Static analysis：不執行 binary，直接讀 decompiled / disassembled outputs 做分析
Dynamic analysis：在執行中觀察行為、狀態、trace、breakpoint 與 register
Hybrid analysis：把 static 與 dynamic 接成一條更完整的調查鏈

作者進一步檢視現有 open-source agentic RE 系統怎麼用 Ghidra、IDA Pro、JADx、GDB 等工具，並指出：目前社群對 static agents 的理解其實遠比 dynamic / hybrid agents 成熟，而很多所謂 dynamic capability，實際上都還是包在 hybrid pipeline 裡。

這點很值得記。因為它意味著今天很多 agentic RE 成功案例，本質上仍偏向「靠 decompilation 後的文字上下文做 reasoning」，而不是已經穩定掌握了 runtime program behavior。

六個真正卡住 agentic RE 的瓶頸

這篇論文最有用的地方，是它沒有停在「RE 很難」這種空話，而是把瓶頸拆得很具體。按照作者的整理，目前 agentic RE 至少有六個核心限制：

Token constraints
Obfuscation
Lack of dynamic-analysis guardrails
Timeouts / timing pressure
Reliance on emulation / virtualization
Hybrid reasoning 缺乏夠強的 verification 結構

這六個點幾乎每一個都不是「再換更大模型」就能自然解掉的問題，反而更像是 execution architecture、tool mediation 與 safety engineering 問題。

為什麼 static analysis agent 很容易被 token 與 obfuscation 卡死？

作者認為，現在很多 static analysis agent 之所以看起來能做事，是因為它們大多建立在已經被工具轉成較可讀形式的 decompiled output 之上。但 binary analysis 真進入實戰後，這條路會立刻撞到兩堵牆：

第一堵牆是 token explosion：decompiled binaries 天生就很長，context 很容易爆
第二堵牆是 obfuscation：一旦 binary 被混淆，語意就會被故意打碎、拉長、擾亂

換句話說，agent 不是單純「看不懂程式」而已，而是它常常先在輸入層就被壓垮。這也讓論文提出一個很關鍵的方向：未來 agentic RE 不該只想著把更多 decompiled text 餵進模型，而應該思考怎麼在 byte pattern、representation 與 decompilation strategy 上先做降噪與降 token。

我覺得這個洞見很對。因為 RE 任務真正缺的，往往不是再多一段 natural-language chain-of-thought，而是更好的中介表示法：能把 binary semantics 留住、但不要把上下文膨脹到模型失去工作能力。

Dynamic analysis 最大的問題，其實是安全邊界太鬆

如果說 static analysis 的問題偏向可讀性與 coverage，那 dynamic analysis 的問題就更危險：很多 agentic systems 在 runtime 幾乎太相信模型自己的判斷。

作者明講，現有一些 codebase 會讓 agent 視情況執行它認為必要的指令；但 reverse engineering / malware analysis 工具本來就高權限、高危險，一旦 agent 被 crafted binary 誘導去跑惡意命令，後果就不再只是分析失敗，而可能是host 被反打、環境被接管、或分析流程本身被利用。

這條線很值得 sectools.tw 讀者注意，因為它和最近一串 MCP / coding agent / skill injection 論文其實是同一個主線：真正危險的不是模型回錯一句，而是它會把不可信輸入一路翻成 command execution。

這篇 paper 把這件事放到 reverse engineering 場景後，風險更現實：你分析的對象本來就可能是 adversarial binary，所以「讓 agent 自己判斷該怎麼動手」這件事，天然就是高風險設計。

Timeout 與 emulation 問題，說穿了都是 realism 問題

論文另外點出兩個常被低估的 practical pain points：

Timeout：惡意程式本來就會用 timing tricks、延遲載入、嚴格時序來躲分析
Emulation：很多安全分析必須靠 VM / emulator，但這些環境本身也可能有偵測或逃逸問題

這代表 agentic RE 如果只在乾淨、短平快、單機可重播的環境裡看起來很厲害，不代表它進到現實 malware / firmware / protected binary 場景還能成立。從這個角度看，作者其實是在批判一種常見錯覺：把 RE 看成另一種 coding benchmark。

實際上，RE 更像是在和敵手設計過的程式對打；它不只要求 reasoning，還要求在 hostile runtime 中穩定、可控、可驗證地做觀測與試探。

Hybrid analysis 為什麼不是兩邊相加而已？

理論上，hybrid analysis 看起來最完整：既有 static 的全局視角，也有 dynamic 的真實行為觀測。但作者指出，混合系統其實會繼承兩邊的缺點，而且再多一個新的難題：怎麼驗證跨階段推理沒有被帶偏。

目前很多 hybrid agent 要嘛倚賴 human-in-the-loop，要嘛就把 reasoning 全丟給 agent 自己內部解。前者太慢、太依賴專家；後者則可能在沒有夠強投票、對照與 safety check 的情況下，直接把惡意 binary 的影響一路帶進 dynamic execution。

這裡最值得注意的，不是「human 好還是 automation 好」，而是：如果你想把人拿掉，就必須補上更強的 verification infrastructure。 否則 hybrid 只是在把更多高風險步驟自動化。

作者提出哪些未來方向？

這篇 paper 雖然偏 survey / position paper，但未來方向提得不空：

byte-pattern-aware tokenization：降低 static analysis 的 token 壓力
alternative decompilation methods：不要只依賴單一路徑的 decompiler 輸出
deobfuscation as a first-class pipeline component：把去混淆當必要層，不是附加功能
dynamic guardrails：限制模型直接把不可信 binary 線索翻成危險指令
sequential / real-time tooling：補足 agent 在 runtime observation 上的工具能力
stronger verification for hybrid reasoning：讓 static 與 dynamic 結果能互相校驗，而不是互相污染

我會把這篇的核心主張濃縮成一句話：agentic RE 真正缺的不是更會講解 binary 的模型，而是更像安全工程系統的 execution stack。

我怎麼看這篇論文？

我覺得這篇值得讀，因為它沒有被「agent 會解 RE 題」那種表面進步沖昏頭。作者抓到一個很關鍵的事實：binary reverse engineering 是 adversarial、長鏈、工具密集、上下文爆炸、而且常常直接碰危險執行面的任務。 這種任務最怕拿 chatbot 式思維硬套。

從 security engineering 角度看，這篇 paper 的真正貢獻是把 agentic RE 的問題重新命名：它不是「讓模型看更多 assembly」；它是如何在 hostile binary environment 下，設計一個可分工、可續跑、可驗證、可受限、而且不會被反利用的分析系統。

這也讓它和前面我們寫過的 FORGE、Red-MIRROR、AgentSpec、PAuth、GrantBox 那些文章能接成同一條主線：當 agent 要做的事情越硬核，真正決定上限的越不是模型智商，而是 runtime architecture。

重點整理

這篇論文關注的是 agentic reverse engineering systems 在 static、dynamic、hybrid 三類分析中的真實限制。
作者指出 static analysis 主要卡在 token explosion 與 obfuscation。
dynamic analysis 最大風險不是只是難，而是 缺乏 guardrails，可能讓 agent 被 crafted binary 誘導去執行危險行為。
timeouts、dynamic loading、emulation / virtualization 問題，讓很多看似有效的 agent 在真實場景中很容易掉鏈。
hybrid systems 不是自然比較安全，反而更需要 cross-stage verification，避免 static 與 dynamic 推理互相放大錯誤。
未來方向的重點不是更大模型，而是更好的 representation、deobfuscation、runtime guardrails 與 verification infrastructure。

Takeaway

Challenges and Future Directions in Agentic Reverse Engineering Systems 真正提醒我們的，是當 LLM agent 開始碰 binary RE 這種高對抗、高風險任務時，最先撞牆的通常不是它會不會講出一段分析，而是它能不能在 obfuscation、token 壓力、runtime 危險性與跨階段驗證失敗之下，仍然維持一條可信的分析鏈。

如果你把 agentic RE 當成下一代安全自動化的重要方向，這篇 paper 很值得補。因為它把 hype 拉回現實：要讓 agent 真能做 reverse engineering，不只是讓它看懂 binary，而是先讓它不會在分析 binary 的過程中被 binary 反過來利用。

免責聲明

本文由 AI 產生、整理與撰寫。內容主要依據公開論文、技術文件與可取得之研究資料進行彙整、解讀與摘要；儘管已盡力確保完整性與可讀性，仍可能因模型理解限制、資料版本差異或語意轉譯而存在疏漏、不精確或更新延遲之處。實際技術細節、實驗設定與最終結論，仍應以原始論文、官方文件及作者公開資料為準。

論文閱讀分析｜當 LLM 開始做 reverse engineering，真正卡住它的往往不是不會想，而是整條分析鏈根本還不夠像真的安全系統

論文基本資訊

這篇論文在處理什麼核心問題？

作者怎麼拆解 agentic RE？

六個真正卡住 agentic RE 的瓶頸

為什麼 static analysis agent 很容易被 token 與 obfuscation 卡死？

Dynamic analysis 最大的問題，其實是安全邊界太鬆

Timeout 與 emulation 問題，說穿了都是 realism 問題

Hybrid analysis 為什麼不是兩邊相加而已？

作者提出哪些未來方向？

我怎麼看這篇論文？

重點整理

Takeaway

免責聲明

發佈留言取消回覆

You may also like

近期文章

廣告

文章分類

近期留言

論文基本資訊

這篇論文在處理什麼核心問題？

作者怎麼拆解 agentic RE？

六個真正卡住 agentic RE 的瓶頸

為什麼 static analysis agent 很容易被 token 與 obfuscation 卡死？

Dynamic analysis 最大的問題，其實是安全邊界太鬆

Timeout 與 emulation 問題，說穿了都是 realism 問題

Hybrid analysis 為什麼不是兩邊相加而已？

作者提出哪些未來方向？

我怎麼看這篇論文？

重點整理

Takeaway

免責聲明

發佈留言 取消回覆

You may also like

Zero Trust IoT 論文閱讀分析：很多防線真正缺的，不是再多一個更會報警的模型，而是別讓少數威脅淹死在高 accuracy 裡

論文閱讀分析：揭露 LLM 輔助 Cyber Threat Intelligence 的脆弱性

近期文章

廣告

文章分類

近期留言

發佈留言取消回覆