Can Agents Secure Hardware? 論文閱讀分析：當 Agent 開始替你自動長出硬體保護機制，真正該驗的就不只是它有沒有做出來，而是攻擊者拆不拆得掉

2026 年 4 月 17 日

論文基本資訊

論文標題：Can Agents Secure Hardware? Evaluating Agentic LLM-Driven Obfuscation for IP Protection
作者：Sujan Ghimire、Parsa Mirfasihi、Muhtasim Alam Chowdhury、Veeramani Pugazhenthi、Harish Kumar Dharavath、Farshad Firouzi、Rozhin Yasaei、Pratik Satam、Soheil Salehi
年份：2026
來源：arXiv:2604.13298
論文連結：https://arxiv.org/abs/2604.13298
主題：Hardware Security、IP Protection、Logic Locking、Agentic AI、LLM Agent、SAT Attack、EDA Security

如果最近這波 AI security 論文一路在談 prompt injection、tool boundary、web agent takeover 與 runtime control plane，那這篇 Can Agents Secure Hardware? 則把問題切到另一個更少人真正在意、但其實同樣危險的地方：當 agent 不再只是分析安全問題，而是開始自動替你「製造安全機制」本身，該怎麼驗它到底有沒有真的做對？

這篇 paper 談的是 hardware IP obfuscation / logic locking。換句話說，它不是在防 LLM agent 被攻擊，而是在問：能不能讓 agent 自動幫硬體設計插入 key-controlled 保護邏輯，降低 reverse engineering、piracy、tampering 與 overbuilding 的風險？

但我認為這篇真正值得看的，不是「又一個 LLM for hardware」demo，而是它把驗證標準講得很清楚：在這類高風險安全設計問題裡，生成成功不代表安全成功；真正該驗的是 correct-key functionality、wrong-key corruption、以及在 SAT-based attack 下到底能不能撐住。

這篇論文想解決什麼？

作者開場其實抓得很準。IC 設計與製造全球化之後，硬體 IP 會暴露在更多不可信供應鏈環節，風險包括：

reverse engineering
piracy
tampering
overbuilding
counterfeiting

對應的經典防線之一，就是 logic locking / IP obfuscation：把 key-controlled logic 插進電路裡，讓設計只有在正確 key 下才會維持原本功能；沒有 key 或 key 錯，就故意讓輸出被破壞。

問題是，這件事並不是「把 XOR gate 插幾個上去」那麼簡單。真正可用的 obfuscation 至少得同時滿足幾件事：

網表仍然合法、可編譯、可進工具鏈
正確 key 下功能必須完全正確
錯誤 key 下要有可觀測的 output corruption
不能輕易被 SAT / SMT 之類的分析攻擊還原

這也就是作者真正想問的問題：

當任務不只是文字生成，而是要在硬體安全約束下完成 planning、synthesis、verification 與 attack evaluation，LLM agent 真的能把這條鏈串起來嗎？

為什麼這不能只靠單次 prompt？

整篇論文最重要的前提之一，就是作者很明白地拒絕把這件事當成「一個 prompt 叫模型吐出 obfuscated netlist」的問題。

原因很簡單：硬體安全不是寫得像樣就好，而是要經得起 deterministic compilation、functional verification 與 adversarial evaluation。

也就是說，單次 prompt 最大的問題不只是容易 hallucinate，而是它缺少對中間狀態的控制。你很難相信一段直接生成的網表，同時滿足：

訊號名稱不亂掉
gate basis 合法
正確 key 功能不變
錯誤 key 下有足夠破壞效果
在 SAT solver 面前不會一秒被打回原形

所以這篇論文真正站的立場其實跟最近很多 agentic security paper 很像：高風險任務的關鍵，不是讓模型一次講完，而是把模型放進一條可驗證、可回饋、可修正的 workflow 裡。

作者提出的核心方法：把 IP obfuscation 拆成一條 agentic workflow

這篇提出的是一個 agentic, LLM-driven IP obfuscation framework。它不是讓模型直接生最後結果，而是把整件事拆成幾個專門階段：

circuit analysis：先解析輸入 .bench 電路結構
retrieval-grounded planning：蒐集相關 benchmark 與硬體安全脈絡
structured lock-plan generation：用結構化方式指定要鎖哪些位置、用哪種 lock style、key bit 怎麼分組
deterministic netlist compilation：把 lock plan 編譯成合法網表
functional verification：驗 correct-key 是否仍正確、wrong-key 是否造成 corruption
SAT-based security evaluation：直接跑攻擊評估可恢復性
iterative refinement：如果不夠好，再根據驗證結果修 plan

如果用白話講，這篇論文不是要證明 LLM 會設計安全硬體，而是要證明：

LLM agent 至少可以開始當一個 workflow-level coordinator，協助做「分析 → 生成 → 驗證 → 攻擊測試 → 修正」這條閉環。

這篇最值得注意的設計：structured lock plan

我覺得這篇最有技術味、也最值得拿來和一般「AI 幫你自動做安全」論文對照的地方，是它沒有讓模型直接吐最終網表，而是先要求模型產出 structured lock plan。

這個 lock plan 會描述：

選了哪些 target nodes
採用什麼 lock style
需要哪些 helper signals
key bits 的群組與配置

這看起來像個小設計，但其實很關鍵。因為它等於把最容易出錯的部分分離開來：

模型負責規劃與選擇
deterministic compiler 負責把規劃落成合法網表

這種切法的意義非常大。它讓 LLM 從「直接對結構化安全產物負全責」退回到「提出受約束的設計方案」，再由工具鏈去保證語法與基礎結構正確。這其實是把 agent 放在比較合理的位置。

它怎麼決定鎖哪裡？不是亂挑

論文流程一開始會先解析輸入 .bench circuit，抽出像是：

gate count
logic depth
fanout
output-cone influence

作者接著用 topology-aware heuristic 去排序 candidate lock locations。背後邏輯很直白：如果你要讓錯 key 真的能污染輸出，就得把鎖放在對下游輸出比較有影響力的位置。

因此，系統偏好那些：

有較強 downstream influence 的節點
深度較高、較可能影響傳播路徑的節點
observability / output-cone coverage 較好的節點

這讓整個流程不是單純文字生成，而比較像「LLM + heuristic + deterministic toolchain」的混合式安全設計。

支援哪些 obfuscation styles？

論文提到實作上支援多種 lock styles，包括：

xor_xnor
perturb_restore
mux_lock
pairwise_subgraph
hybrid

這點很重要，因為它表示作者不是只在單一固定模板上做 prompt demo，而是至少讓 agent 在不同 lock 策略之間做選擇與規劃。當然，後面結果也很清楚說明：會選 lock style 不等於就真的能對抗現代 SAT 攻擊。

評估設計很值得學：不是只看生成成功，而是把攻擊者拉進來

這篇 paper 我最欣賞的一點，就是它沒有把「產生了有效網表」當成結案，而是把評估拆成四組指標：

functional validity：parse success、correct-key match、wrong-key corruption
structural cost：gate overhead、key-input count 等
security metrics：SAT success、runtime、DIPs、remaining key space
workflow metrics：整體 runtime 與 LLM 使用情況

這裡最關鍵的是 security metrics。因為很多 AI-for-security 論文最大的問題，就是只證明系統能產生東西，卻沒證明那個東西在攻擊者面前到底能不能活。

這篇至少有把 SAT-based distinguishing-input-pattern attack 拉進來，而且直接用 oracle-guided constraints 去做 key recovery。換句話說，作者不是只問「看起來像不像一個 lock」，而是問：

如果真的有攻擊者拿 SAT solver 來拆，你這個 agent 幫你做出來的保護到底能拖住多久？

實驗怎麼做？

作者使用的是經典 ISCAS-85 combinational circuits，包括：

c432
c499
c880
c1355
c1908
c3540
c5315
c7552

模型方面，作者比較了三個：

GPT-5
LLaMA-3.1-8B
Qwen-2.5-Coder-14B

每個 benchmark 會搭配 8-bit、16-bit、32-bit key，並做 SAT-based evaluation。這樣的設計至少能讓我們看到三件事：

不同模型是否都能穩定生出合法結果
不同 key size 是否真的提高安全性
不同 benchmark 電路拓樸是否對 corruption 與 recoverability 造成明顯影響

核心結果一：它真的能生成合法、correct-key 正確的 obfuscated netlist

先講好消息。作者的結果顯示，三個模型都能在這套 workflow 下產生：

syntactically valid obfuscated netlists
correct-key functionality preserved
non-zero wrong-key corruption

也就是說，從「能不能把 workflow 跑通」這件事來看，答案是可以的。這代表 agentic workflow 至少在硬體安全這種高結構約束領域，也開始能做出一點像樣的事情，而不只是會寫自然語言報告。

但真正有意思的是，這個好消息只代表它開始像個設計工具，不代表它已經像個可靠安全工具。

核心結果二：wrong-key corruption 有，但幅度有限，而且高度依賴電路拓樸

論文報告 wrong-key corruption 大約落在 0.01 到 0.23 之間，不同 benchmark 差異很明顯：

c432 的 corruption 較高
c5315 的 corruption 較低

這裡有兩個關鍵訊號。

第一，錯 key 確實會讓輸出被污染，但污染不是自然隨 key size 線性上升。 作者明確指出，key size 增加並沒有穩定帶來更高 corruption。這意味著，真正決定效果的更像是 lock placement 與 circuit topology，而不是你把 key 拉得多長。

第二，電路結構差異非常重要。 某些電路因為拓樸與訊號傳播特性，錯誤比較容易擴散到輸出；某些則不那麼容易。這其實直接打臉一種常見幻想：不是你把 obfuscation 模板自動化了，就會自動得到穩定安全性。

核心結果三：SAT 攻擊在所有案例都成功，這是全文最重要的一句話

如果只能記住這篇 paper 一句結論，我會選這句：

雖然 key size 增加會提高攻擊成本，但在作者評估的所有案例裡，SAT solver 最終都成功恢復正確 key。

這句話非常重要，因為它直接把整篇論文從「LLM agent 幫你成功做硬體保護」拉回「LLM agent 幫你做出一個目前仍然擋不住現代分析攻擊的保護雛形」。

也就是說，這個 framework 的價值不是證明「問題解了」，而是證明：

agent 能開始參與這種安全設計工作流
但現有 lock templates 本身仍然不夠強
workflow-level automation 無法替代真正的 security hardness

這是一個很成熟、也很值得尊重的結論。作者沒有把 AI 包裝成 magic，而是坦白承認：自動化可以幫你把設計做出來，但不保證幫你把對抗強度做出來。

不同模型有什麼差異？

論文結果指出：

GPT-5 通常帶來較高的 SAT attack effort，但 runtime 也較高
LLaMA-3.1-8B 以較低 runtime 達到可比 corruption 表現
Qwen-2.5-Coder-14B 則落在中間

但真正重要的不是誰多拿幾分，而是三者都共同指向同一件事：模型差異會影響效率與部分品質，但無法改寫 lock template 本身在 SAT attack 面前普遍脆弱這個結構性事實。

這篇論文真正的價值：把 AI-for-security 從「會生成」拉回「要驗安全性」

我認為這篇 paper 的最大價值，不是硬體安全這個特定題目本身，而是它替整個 agentic security 研究補上一個很該有的態度：

當 agent 開始替你產生安全控制項，評估標準就不能停在輸出看起來合理，而要拉到 adversarial evaluation 這一層。

這個道理其實可以外推到很多領域：

agent 幫你寫 detection rule，不代表 rule 有 coverage
agent 幫你寫 guardrail，不代表 guardrail 擋得住 adaptive attack
agent 幫你做 obfuscation，不代表 obfuscation 經得起 SAT solver

所以這篇論文其實很像在替整條 AI security pipeline 補上一句該被一直重複的話：security artifact generation 和 security guarantee 是兩回事。

和最近幾篇文章相比，這篇新在哪？

如果把這篇放回最近 sectools.tw 的脈絡裡，它的定位很清楚：

它不是在談 prompt injection，也不是 memory poisoning。
它也不是再做一個 SOC / CTI benchmark。
它談的是 agent 直接參與安全機制合成這件事，而且要求用攻擊者視角驗證結果。

這讓它跟最近幾篇 indirect prompt injection / web agent / runtime control 題材拉出明顯區隔，也把「agentic security」這條線擴到更底層的 supply-chain / hardware IP protection 問題。

這篇論文的限制也很值得一起看

當然，這篇 paper 也有明確限制：

只評估 ISCAS-85 combinational circuits，沒有碰 sequential circuits。
每個 benchmark-key pair 只生成一個 candidate，搜索空間仍然有限。
目前 lock styles 雖然多樣，但整體仍未對 SAT attack 形成真正抗性。
結果主要顯示 feasibility，而不是 production-grade robustness。
論文自己也提醒，logic locking 並不能消除 side-channel leakage 等其他硬體攻擊面。

也就是說，這篇的價值在於證明「這條路開始可以走」，而不是證明「這條路已經走完」。

總結

Can Agents Secure Hardware? Evaluating Agentic LLM-Driven Obfuscation for IP Protection 最值得看的地方，不是它證明 AI 已經會做出真正強壯的硬體保護，而是它很誠實地把問題拆開：

Agent 可以幫你把 workflow 跑起來
可以生成合法、功能正確、錯 key 會產生污染的 obfuscated netlist
但只要 SAT 攻擊仍能全面恢復 key，這些成果就還不能被當成真正可靠的 security win

如果要把這篇濃縮成一句話，我會這樣說：

這篇論文提醒我們，當 agent 開始替人設計安全機制時，真正該驗的早就不是它有沒有生成出東西，而是那些東西在攻擊者手上到底能不能活下來。

這個提醒，不只對硬體安全成立，對整個 agentic security 領域都成立。

本文由 AI 產生、整理與撰寫。

Can Agents Secure Hardware? 論文閱讀分析：當 Agent 開始替你自動長出硬體保護機制，真正該驗的就不只是它有沒有做出來，而是攻擊者拆不拆得掉

論文基本資訊

這篇論文想解決什麼？

為什麼這不能只靠單次 prompt？

作者提出的核心方法：把 IP obfuscation 拆成一條 agentic workflow

這篇最值得注意的設計：structured lock plan

它怎麼決定鎖哪裡？不是亂挑

支援哪些 obfuscation styles？

評估設計很值得學：不是只看生成成功，而是把攻擊者拉進來

實驗怎麼做？

核心結果一：它真的能生成合法、correct-key 正確的 obfuscated netlist

核心結果二：wrong-key corruption 有，但幅度有限，而且高度依賴電路拓樸

核心結果三：SAT 攻擊在所有案例都成功，這是全文最重要的一句話

不同模型有什麼差異？

這篇論文真正的價值：把 AI-for-security 從「會生成」拉回「要驗安全性」

和最近幾篇文章相比，這篇新在哪？

這篇論文的限制也很值得一起看

總結

發佈留言取消回覆

You may also like

近期文章

廣告

文章分類

近期留言

論文基本資訊

這篇論文想解決什麼？

為什麼這不能只靠單次 prompt？

作者提出的核心方法：把 IP obfuscation 拆成一條 agentic workflow

這篇最值得注意的設計：structured lock plan

它怎麼決定鎖哪裡？不是亂挑

支援哪些 obfuscation styles？

評估設計很值得學：不是只看生成成功，而是把攻擊者拉進來

實驗怎麼做？

核心結果一：它真的能生成合法、correct-key 正確的 obfuscated netlist

核心結果二：wrong-key corruption 有，但幅度有限，而且高度依賴電路拓樸

核心結果三：SAT 攻擊在所有案例都成功，這是全文最重要的一句話

不同模型有什麼差異？

這篇論文真正的價值：把 AI-for-security 從「會生成」拉回「要驗安全性」

和最近幾篇文章相比，這篇新在哪？

這篇論文的限制也很值得一起看

總結

發佈留言 取消回覆

You may also like

AIR 論文閱讀分析：真正成熟的 Agent Safety，不只要會阻止出事，還要會在出事後善後

論文閱讀分析｜Credential Leakage in LLM Agent Skills：當第三方 Agent Skill 成為憑證外洩的新供應鏈入口

近期文章

廣告

文章分類

近期留言

發佈留言取消回覆