FALCON 論文閱讀分析：把 CTI 自動變成可部署的 Snort / YARA 規則，真的可行嗎？

2026 年 4 月 8 日

論文基本資訊

論文標題：FALCON: Autonomous Cyber Threat Intelligence Mining with LLMs for IDS Rule Generation
作者：Shaswata Mitra, Azim Bazarov, Martin Duclos, Sudip Mittal, Aritran Piplai, Md Rayhanur Rahman, Edward Zieglar, Shahram Rahimi
來源：arXiv 2508.18684
主題：CTI、Agentic AI、IDS Rule Generation、Snort、YARA、Threat Detection
論文連結：https://arxiv.org/abs/2508.18684

這篇 FALCON 很值得接在最近幾篇 CTI benchmark／reasoning 論文後面看，因為它不再只是問「LLM 懂不懂 CTI」，而是更進一步問：如果模型真的看懂了，那它能不能把 CTI 直接轉成可以部署的 IDS 規則？

作者想解的問題非常務實。SOC 團隊每天都在面對新的攻擊樣態、IoC、行為特徵與威脅報告，但從這些 CTI 資訊一路走到可上線的 Snort 或 YARA 規則，中間通常還要經過人工抽取、比對既有規則、撰寫、驗證、調校。這整段流程又慢、又吃人力、還容易因為規則爆量而拖垮維運效率。

FALCON 的核心主張是：用 agentic LLM workflow，把 CTI 自動翻成可部署的 IDS 規則，並在內部完成語法、語意、效能三層驗證，讓整條管線不只是「生成」，而是接近「可交付」。

這篇論文想解決什麼？

傳統的 IDS rule engineering 有三個老問題：

速度不夠快：新威脅冒出來時，規則更新往往跟不上。
高度仰賴專家：要把 CTI 轉成 Snort / YARA，需要很熟語法、平台特性與偵測邏輯的人。
規則庫會持續膨脹：每來一個變體就新增一條，很快就 rule bloat，拖累執行效率。

作者的觀察很準：今天的難點不只是「寫出一條規則」，而是寫出一條和原始 CTI 對得上、語法正確、效能合理、而且最好還能判斷該更新舊規則還是新增新規則的規則。

也因此，FALCON 不是把 LLM 當成單次 code generator，而是把它放進一個有檢索、生成、驗證、回饋迭代、人類審核的 agentic pipeline 裡。

FALCON 的整體架構在做什麼？

整個流程可以簡化成下面這樣：

CTI 輸入
  ↓
檢索相近的既有 IDS 規則
  ↓
LLM 產生候選 Snort / YARA 規則
  ↓
語法驗證
  ↓
語意驗證
  ↓
效能驗證
  ↓
若未過關則回饋重新生成
  ↓
最後交給分析師審核後部署

這個設計最重要的地方，是它承認單靠一次生成不夠可靠。真正有價值的是把生成包進驗證閉環，讓模型不是亂吐一條 rule 就結束，而是必須一路通過多層檢查。

Generation phase：先生成，但不是盲生

FALCON 的第一階段是 generation。輸入是一份 CTI，裡面可能包含：

IP、domain、hash 等 signature
通訊協定、惡意行為、payload pattern 等 behavior
其他從 threat report 或 sandboxing 萃取出的指標

接著系統不會直接丟給 LLM，而是先找出語意上相近的既有 IDS 規則。這一步的目的有兩個：

提供更好的上下文，幫助模型生成更貼近實務的規則
判斷這次到底該「新增規則」還是「更新舊規則」

這個觀念很重要。很多論文都在談自動生成，但比較少真的處理規則維運的現實：不是每個新 CTI 都值得長出一條全新的規則。有時候更好的做法是重用或微調既有規則，避免規則庫無限制膨脹。

Validation phase：這篇論文真正有料的地方

如果只看摘要，你會以為 FALCON 的亮點是 agentic AI。但我覺得更有價值的是它把驗證拆成三層，而且每一層都真的對應到部署現場會踩到的坑。

1. Syntax validation：先確定規則至少能被吃下去

第一層是語法檢查，確認產出的 Snort / YARA 規則至少結構正確、能被 parser 接受。這一步聽起來很基本，但很必要，因為小模型或第一次生成很容易在格式上就出錯。

作者在討論中也提到，較小的模型常常需要 2 到 3 輪回饋後，才會收斂到有效規則。這其實很符合實務直覺：小模型不是不能用，而是更依賴結構化 feedback loop。

2. Semantic validation：不是長得像 rule，就真的對應到 CTI

這篇論文最值得注意的技術點，是作者知道「語法正確」遠遠不等於「邏輯正確」。一條看起來像樣的規則，可能還是抓錯協定、漏掉關鍵 indicator、或用錯偵測重點。

為了解這個問題，他們設計了自己的 CTI-Rule Semantic Scorer。概念上，它是一個 bi-encoder 模型，把：

自然語言的 CTI 描述
形式化的 IDS 規則

一起投影到同一個 embedding space，再用 cosine similarity 去判斷兩者在功能上是否對得起來。

作者明確指出，這件事不能只靠 BLEU、ROUGE、BERT-F1，甚至也不能完全信任 LLM 自己說「我覺得這條規則合理」。因為 CTI 和 IDS rule 本來就不是同一種表示形式：前者是自然語言威脅敘述，後者是高度壓縮、結構化的檢測語言。兩者之間存在很大的 representation gap。

所以他們才做了一個專門衡量 functional alignment 的語意分數器，拿來支撐 semantic validation 與 rule retrieval。這個想法其實比單純「再加一個 LLM judge」更紮實，因為它至少試圖把「像不像」和「有沒有真的抓到威脅邏輯」分開。

3. Performance validation：生成出來還要能跑

第三層是效能驗證，這點很務實，也讓 FALCON 比很多 demo 型研究更像真實產品設計。

作者關注的不只是 rule 能不能 match，還包括：

有沒有冗餘邏輯
有沒有不必要的額外規則
執行時會不會造成效能負擔
是否可以透過更新既有規則，避免新規則無限擴張

這一層的存在很關鍵，因為真實世界的 IDS 維運不是比誰 rule 多，而是比誰的規則庫有效、可維護、可持續演進。如果沒有 performance validation，自動化最後很可能只是把人工撰寫的瓶頸，換成自動生成的 rule bloat。

資料集與實驗設計：不是小玩具

FALCON 的實驗規模不算小。作者蒐集了：

4017 條 Snort 規則
4587 條 YARA 規則

並為每條規則建立對應的 CTI，最後形成：

8034 組 Snort CTI-rule pairs
9174 組 YARA CTI-rule pairs

此外，作者還另外建立了大量「相關但已過時」的舊規則，用來測 retriever 是否能找到可重用的 existing rules。這個設計很不錯，因為它不是只驗證生成品質，而是把「規則重用／更新」這個實務議題一併拉進來。

整體來看，這篇的資料與實驗設計至少有做到兩件事：

不是只在少數手工案例上 demo
有試著把 rule retrieval、semantic scoring、end-to-end pipeline 串成一套完整驗證

結果怎麼看？

論文最吸睛的數字，是摘要提到的：

平均 95% accuracy
多位資安分析師 qualitative evaluation 的 84% inter-rater agreement

如果只看這兩個數字，會很容易覺得「這已經可以全自動上線了」。但我認為比較合理的解讀是：FALCON 證明了這條路可行，但還不代表可以把 analyst 從流程裡拿掉。

原因有三個：

論文自己就把 Cybersecurity Analyst 放在最後一關，表示作者也不主張 fully hands-off deployment。
所謂 accuracy 與相似度分數，仍是建立在作者定義的 scoring 與評估框架上，不等於真實 SOC 環境裡的長期偵測效益。
即便 rule 在語法、語意、效能上都通過，仍可能和組織本身的 policy、誤報容忍度、現場流量型態不一致。

換句話說，這篇最有價值的地方，不是「從今天起分析師失業」，而是：分析師可以把時間從手工 rule drafting，轉移到高價值的審核、修正與策略判斷。

多模型比較透露了什麼？

作者還比較了多種不同大小的模型，包括 GPT-4o、Llama-3.3-70B、Qwen3-32B、Mistral-Small、Granite、Phi-4-mini。結果很有意思：

大模型與中型模型在 first-shot generation 上通常比較穩
小模型初稿比較容易出錯，但在 feedback loop 裡仍然能逐步修正
這表示真正重要的，可能不只是 base model 大小，而是整個 agentic pipeline 的糾錯能力

這點其實和很多最近的安全 AI 系統很像：工作流設計開始比單次 prompting 更重要。如果你有良好的 validator、retriever、回饋機制，小模型也未必不能做出接近可用的結果；反過來說，如果沒有驗證閉環，再強的模型也可能穩定地產生看似合理、其實不能部署的垃圾。

我怎麼看這篇論文？

我覺得 FALCON 有三個很實際的價值。

第一，它把 CTI → Detection Engineering 這條鏈真正接起來了

很多 CTI + LLM 論文停在摘要、問答、分類、benchmark 或 reasoning assessment。FALCON 則更往前一步，把輸出直接對準 Snort / YARA rule。這讓研究成果離 SOC 現場更近，也更容易被真正採用。

第二，它知道「生成」本身不是重點，重點是 validation

如果今天一篇論文只說「我們用 LLM 生成 IDS rule」，那老實說沒有太大說服力。FALCON 比較成熟的地方，是它很清楚：可用性來自驗證閉環，不來自生成本身。

第三，它碰到了 rule lifecycle management，而不只是單次產出

這篇有認真處理規則重用、舊規則更新、rule bloat 這些維運議題。這表示作者不是只把論文做成一個 flashy prototype，而是有意識到部署後的管理成本。

這篇論文的限制在哪？

當然，FALCON 也不是沒有弱點。

第一，資料仍高度依賴既有規則與對應 CTI 的品質。 作者自己假設 CTI 已經正確包含足夠的 signature 與 behavior。現實裡如果 CTI 本身殘缺、噪音很多、甚至帶有錯誤，後面整條管線都會跟著歪。
第二，評估仍偏向離線實驗。 它證明了 rule generation 可行，但沒有真正展示在 live traffic、實際告警負載、誤報／漏報成本下的長期效果。
第三，semantic scorer 很有想法，但仍是作者自建框架。 它目前看起來優於 RAGAS 與 BERT-F1，但未來還需要更多跨資料集、跨環境驗證，才能確定這個分數真的穩。
第四，人類仍是最後保險絲。 這不是缺點，而是現階段非常合理的現實。任何聲稱可以完全自動部署偵測規則的系統，我反而會先提高警覺。

對 CTI / SOC 團隊的啟示

如果你在做 CTI、Detection Engineering 或 SOC Automation，FALCON 帶來的啟示不是「讓 AI 自己去寫規則就好」，而是下面這幾點：

可以開始把 CTI 到 detection content 的轉譯 視為可自動化問題
不要只追求生成，一定要把 syntax / semantic / performance validation 一起設計進去
規則生成系統不該只會新增，還要能考慮 rule reuse 與 lifecycle management
未來真正可落地的方向，很可能是 agentic pipeline + analyst-in-the-loop，而不是純 autonomous replacement

總結

FALCON 是一篇很有「工程落地感」的論文。它的價值不在於再一次證明 LLM 可以看懂資安文字，而在於把問題推進到更接近實務的一步：能不能從 CTI 自動產出真正可部署的 IDS 規則？

作者給出的答案是：可以，但前提不是單次生成，而是要有檢索、語意對齊、效能驗證、回饋迭代，以及人類最後把關。

如果說 AttackSeqBench 這類 benchmark 論文是在測模型到底看不看得懂攻擊序列，那 FALCON 代表的就是下一步：當模型開始看懂之後，我們能不能把理解轉成可行動、可部署、可維護的防禦產物。

這條路還沒走完，但至少這篇論文證明了一件事：CTI 自動化的下一個關鍵戰場，不只是問答與摘要，而是直接進入 detection engineering。

FALCON 論文閱讀分析：把 CTI 自動變成可部署的 Snort / YARA 規則，真的可行嗎？

論文基本資訊

這篇論文想解決什麼？

FALCON 的整體架構在做什麼？

Generation phase：先生成，但不是盲生

Validation phase：這篇論文真正有料的地方

1. Syntax validation：先確定規則至少能被吃下去

2. Semantic validation：不是長得像 rule，就真的對應到 CTI

3. Performance validation：生成出來還要能跑

資料集與實驗設計：不是小玩具

結果怎麼看？

多模型比較透露了什麼？

我怎麼看這篇論文？

第一，它把 CTI → Detection Engineering 這條鏈真正接起來了

第二，它知道「生成」本身不是重點，重點是 validation

第三，它碰到了 rule lifecycle management，而不只是單次產出

這篇論文的限制在哪？

對 CTI / SOC 團隊的啟示

總結

發佈留言取消回覆

You may also like

近期文章

廣告

文章分類

近期留言

論文基本資訊

這篇論文想解決什麼？

FALCON 的整體架構在做什麼？

Generation phase：先生成，但不是盲生

Validation phase：這篇論文真正有料的地方

1. Syntax validation：先確定規則至少能被吃下去

2. Semantic validation：不是長得像 rule，就真的對應到 CTI

3. Performance validation：生成出來還要能跑

資料集與實驗設計：不是小玩具

結果怎麼看？

多模型比較透露了什麼？

我怎麼看這篇論文？

第一，它把 CTI → Detection Engineering 這條鏈真正接起來了

第二，它知道「生成」本身不是重點，重點是 validation

第三，它碰到了 rule lifecycle management，而不只是單次產出

這篇論文的限制在哪？

對 CTI / SOC 團隊的啟示

總結

發佈留言 取消回覆

You may also like

CyberTeam 論文閱讀分析：把藍隊 Threat Hunting 真正拆成一條可執行的 LLM workflow

論文閱讀分析｜Exploring the Role of Large Language Models in Cybersecurity: A Systematic Survey

近期文章

廣告

文章分類

近期留言

發佈留言取消回覆