Hallucination-Resistant Security Planning 論文閱讀分析:在 SOC 裡,真正可靠的 LLM 不是更敢做事,而是知道何時該先停手

論文基本資訊

  • 論文標題:Hallucination-Resistant Security Planning with a Large Language Model
  • 作者:Kim Hammar、Tansu Alpcan、Emil Lupu
  • 年份:2026
  • 來源:arXiv:2602.05279;IEEE/IFIP NOMS 2026
  • 論文連結:https://arxiv.org/abs/2602.05279
  • DOI:10.48550/arXiv.2602.05279
  • 主題:Incident Response、Security Planning、LLM Hallucination、Digital Twin、In-Context Learning、SOC

如果最近這一波 sectools.tw 的主線,已經一路從 CTI 抽取alert triageincident response agentbenchmark,慢慢推進到「LLM 到底能不能真的放進安全營運流程」,那這篇 Hallucination-Resistant Security Planning with a Large Language Model 很值得接上。因為它真正要處理的,不是再證明一次模型很聰明,而是更現實的問題:當 LLM 開始給出 incident response 或 security planning 建議時,我們要怎麼知道它不是在一本正經地亂講?

這篇論文的價值,不在於它做了一個更花俏的安全 agent,而在於它試圖把 hallucination 風險控制 正式拉進 security management 的設計中心。作者的立場很清楚:在資安場景裡,錯誤輸出不是普通聊天機器人的小失誤,而可能是錯誤封鎖、錯誤修補、錯誤隔離、錯誤恢復,最後直接把 disruption 成本灌進生產環境。這也是為什麼它比單純的 prompt engineering paper 更值得看。

這篇論文想解決什麼?

作者關注的是一類很廣的問題:security management tasks。這不只包括 incident response,也包括 risk analysis、policy design、threat hunting 等等。它們有幾個共通特徵:

  • 不是單輪問答,而是一連串動作決策
  • 每一步都會影響後續成本與恢復時間
  • 缺乏完整可微分、可精準建模的環境模型
  • 做錯一次,代價可能比「答錯題」大很多

所以作者真正想回答的是:

如果把 LLM 當成 security planning 的決策輔助,我們能不能不用完全相信它,而是用一套可驗證、可 abstain、可迭代修正的流程,把 hallucination 風險壓到可接受範圍?

這個 framing 很關鍵。因為很多安全 AI 工作,仍然停在「怎麼讓模型多答對幾題」;但這篇更像是在問:即使模型不可靠,我們能不能設計出一個框架,讓它在高風險場景裡仍然變得可用?

作者怎麼定義 hallucination?這點比你想的更務實

我很喜歡這篇的一個地方,是它沒有把 hallucination 只當成「和事實不符的句子」,而是把它直接放回任務效用裡定義。

作者的核心定義很簡單:如果某個動作沒有讓任務更接近完成,甚至讓剩餘完成時間更長,那它就是 hallucinated action。放到 incident response 裡很好理解:

  • 去修一個根本不存在的弱點
  • 關掉和事件無關的系統元件
  • 做出看起來合理、其實和當前攻擊脈絡無關的處置

這種定義很實務。因為對 SOC 而言,最麻煩的往往不是模型胡說八道到一眼可辨,而是它提出語氣很專業、表面很像樣、卻不會讓 recovery 更快的動作。這類錯誤才是真正危險的。

核心想法:不要直接採納 LLM 的動作,先檢查它有沒有「自洽」

整篇論文的主軸,可以濃縮成一個迭代迴圈:

  1. LLM 先生成多個 candidate actions
  2. 系統用 lookahead prediction 檢查這些動作對未來任務完成時間的預估是否彼此一致
  3. 如果一致性太低,就不採用,改去蒐集外部回饋
  4. 再把外部回饋丟回 LLM 做 in-context learning (ICL) 修正下一輪候選動作

這裡最重要的不是技術名詞,而是這個設計哲學:先懷疑,再執行。 作者不是讓 LLM 一次輸出一個答案就直接上線,而是要求它先對同一個問題提出多個候選動作,再看這些動作在「未來結果」上的推演是否收斂。如果連它自己都說不攏,那就不該急著相信。

Consistency 是這篇最值得記住的關鍵字

作者用來近似 hallucination 風險的核心訊號,是 consistency。理由很直觀:如果 LLM 對同一個場景反覆生成的候選動作彼此互相衝突,代表它其實沒有穩定掌握正確處置方向。

具體做法不是只看文字表面相不相同,而是更進一步:讓 LLM 對每個 candidate action 做 lookahead,預測執行後還需要多久才能完成任務,再看這些預測的分散程度。如果分散很大,代表模型對自己提出的選項後果其實沒有穩定判斷。

這一步非常值得安全工程圈注意,因為它把「模型說得像不像」轉成「模型對後果預測穩不穩」。對安全決策來說,後者顯然更重要。

Abstention:當一致性不夠,就先不要做

很多人談 agentic security 時,預設都是要讓 agent 更主動、更快、更自動;但這篇反而把 abstention 放進中心。也就是說:當一致性低於門檻時,系統應該選擇不採取任何動作。

這其實是很成熟的設計觀。因為在 incident response、policy change、service recovery 這類場景裡,錯誤自動化通常比延遲幾分鐘更貴。作者甚至把這件事做成可調參數化:用一致性門檻 γ 控制 hallucination 風險與回饋成本之間的取捨。

換句話說,這篇不是單純說「模型不夠穩」,而是提供一個系統層面的答案:

如果你知道模型不穩,那就把「不作為」也設計成合法輸出,而不是逼它永遠給答案。

低一致性時怎麼辦?用外部回饋把它拉回來

一致性不夠時,框架不會停在那裡,而是進入下一步:收集 external feedback。論文舉的典型例子是把候選動作丟進 digital twin 這種虛擬副本環境中測試,也可以是向 security expert 詢問、做外部查核、或用其他形式的驗證機制。

這一步的意義很大。它表示作者沒有把 LLM 當成閉環自治的最終決策者,而是把它放進一個可反覆校正的控制回路裡。然後,再把得到的外部回饋塞回 context,透過 ICL 讓下一輪候選動作更接近有效決策。

對我來說,這篇真正有價值的地方就在這裡:它不是在幻想完全可靠的 LLM,而是在設計一個能和不可靠 LLM 共處的安全流程。

Incident response 是這篇的主要驗證場景

雖然論文把框架講成一般 security management framework,但它實際驗證的主場景還是 incident response。任務目標是:根據 system logs 和 security alerts,生成 response 與 recovery plan,盡量縮短 recovery time。

作者強調,incident response 很適合拿來驗證這種方法,因為它剛好具備幾個最難處理的特徵:

  • 資訊通常不完整,只看到部分 indicators of compromise
  • 每次事件的上下文不同,不能套死板 runbook
  • 正確與否最終會反映在 recovery 成本與時間上
  • 錯誤動作可能額外造成 service disruption

也因此,這篇不是一般那種「把安全問題文字化,再做 Q&A」的論文,而是在處理行動序列品質。這和只比答題正確率的 benchmark,層次差很多。

它不只做系統,也試著給理論保證

這篇另一個有辨識度的地方,是它不像多數 security + LLM paper 那樣完全停在工程 demo。作者還試圖從理論上回答兩件事:

  • 一致性門檻是否能控制 hallucination probability 的上界
  • 在特定假設下,ICL 的 regret 是否可以被上界化

老實說,這些理論結果未必會直接決定實務採用,但它們很重要,因為作者在做一件少見的事:把 security management 中使用 LLM 的可靠性問題,從 prompt craft 提升到可分析、可校準、可討論風險邊界的層級。

這和很多「我們試了幾個 prompt,結果看起來不錯」的工作相比,成熟度差很多。

實驗結果:不是讓模型變神,而是讓錯誤成本下降

論文在四個公開資料集上做 incident response 實驗。根據摘要與內文,作者聲稱這套框架相對 frontier LLM baseline,可把 recovery time 最多縮短約 30%。另外,ablation study 也指出,lookahead、consistency check、feedback/ICL 這幾個組件各自都對表現有正向貢獻。

這裡最值得注意的不是「30%」這個數字本身,而是它代表的方向:安全場景裡真正有價值的優化,可能不是把模型原始能力再往上推一點,而是用流程設計把錯誤輸出的傷害壓下來。

也就是說,這篇 paper 的重點不在於「LLM 突然變得超懂 incident response」,而在於:

  • 讓模型在不確定時先停手
  • 讓錯誤候選動作先經過外部驗證
  • 讓決策從一次性回答,變成可修正的迴圈

這個方向其實比單純比模型排名更接近 production。

和近期 agentic security 論文相比,它的位置在哪?

如果把近期幾篇一起看,脈絡會很清楚:

  • OpenSec、CORTEX、IRCopilot、SIABench 比較多在問:LLM / agent 能不能做 triage、investigation、incident response
  • 這篇 更像是在問:就算它們能做,我們要怎麼把錯誤決策風險系統性地壓低?

也因此,它和那些 paper 並不是競爭關係,而是更像補上控制層。前面那些工作比較像在證明 agentic security workflow 有可能;這篇則是在補一句很重要的現實提醒:

在高風險安全場景裡,關鍵不是 agent 會不會行動,而是它何時應該拒絕行動。

這篇的啟發:未來安全 AI 的重點,可能是可拒答、可驗證、可回退

我覺得這篇最值得帶走的,不只是它的框架細節,而是它代表的產品觀。很多人一談到 agent,就直覺想著 autonomy、tool use、長鏈規劃、多步執行;但真正進入安全營運之後,更重要的可能反而是三件事:

  • 可拒答:不確定時要能停
  • 可驗證:要有外部 feedback loop
  • 可回退:錯了之後不能直接把組織一起帶下去

這篇 paper 本質上就是在往這三件事靠。它沒有承諾「我們終於解決 hallucination」,但它提供了一個更有工程感、也更有風險意識的答案:不要奢望模型天然可靠;把可靠性做成流程。

這篇也有幾個需要保留的地方

  • 理論假設和真實場景仍有距離:例如 Bayesian-style alignment 與校準資料分布假設,在真實 SOC 不一定容易滿足。
  • lookahead prediction 本身仍依賴 LLM:也就是說,系統是在用模型的一致性去約束模型,而不是完全外部真值判定。
  • digital twin 成本不低:很多企業未必有足夠高保真度的安全環境副本,外部回饋的取得成本可能成為瓶頸。
  • 30% 改善的外部可轉移性仍要觀察:公開資料集上的 incident planning,不等於真實企業環境裡的複雜恢復流程。

但即便如此,我還是認為這篇很值得看,因為它至少把問題問對了:在安全領域,LLM 的核心問題不只是 capability,而是 controllability。

我的看法

如果要我用一句話總結這篇,我會這樣說:

這篇論文真正重要的地方,不是讓 LLM 更敢做安全決策,而是教我們怎麼在它不夠可靠時,仍然把它變成一個比較不會害人的決策輔助系統。

這個角度我很認同。因為安全營運從來不是追求「最會答題的模型」,而是追求在錯一次就會很痛的場景裡,誰比較值得被放進流程。而在這件事上,abstention、verification、feedback loop,恐怕會比更多花俏的 agent orchestration 還重要。

如果未來要把 LLM 真正放進 SOC、IR、policy orchestration 或自動化變更流程,我很懷疑單靠更大的模型就夠了。更可能的路,是像這篇這樣:把模型包進一個能懷疑它、校正它、必要時拒絕它的控制框架裡。

免責聲明

本文由 AI 產生、整理與撰寫。 內容主要依據公開論文、arXiv 頁面與可取得之研究資料進行彙整、解讀與摘要。儘管已盡力確保內容之完整性與可讀性,仍可能因模型理解限制、資料來源差異或語意轉譯過程而存在疏漏、不精確或更新延遲之處。本文僅供研究交流與知識分享參考;實際技術細節、實驗設定與最終結論,仍應以原始論文、正式出版版本與作者公開資料為準。

You may also like