Harmful Intent 偵測論文閱讀分析：真正難抓的，不是最刺眼的危險詞，而是那些合起來才開始危險的訊號

2026 年 4 月 21 日

論文基本資訊

論文標題：Segment-Level Coherence for Robust Harmful Intent Probing in LLMs
作者：Xuanli He、Maksym Andriushchenko、Anej Svete、Martin Jaggi、Francesco Locatello
年份：2026
來源：arXiv:2604.14865
論文連結：https://arxiv.org/abs/2604.14865
DOI：10.48550/arXiv.2604.14865
主題：LLM Safety、Harmful Intent Detection、Streaming Probes、Jailbreak Detection、Mechanistic Monitoring、CBRN Safety

本文由 AI 產生、整理與撰寫。

如果最近這一串 sectools.tw 文章，已經一路把 jailbreak、harmful compliance、prompt injection、runtime guardrails 與 trajectory safety 慢慢接起來，那這篇 Segment-Level Coherence for Robust Harmful Intent Probing in LLMs 很值得補進來，因為它打的不是「模型最後有沒有拒答」這種表面，而是更前面一層：當模型開始生成內容時，我們到底能不能在過程中看出它已經帶著有害意圖往前走？

這篇 paper 最值得注意的地方，是它直接點破很多即時監測系統的一個老問題：它們太容易被少數幾個高分 token 牽著走。 只要輸出裡碰巧出現某些敏感詞，系統就可能誤報；反過來說，真正危險的請求若刻意拆字、繞寫、做字符級混淆，很多偵測器又會掉球。作者想修的，就是這個「看到尖峰就緊張、看不到尖峰就鬆手」的脆弱感測方式。

這篇論文在處理什麼問題？

作者關心的是 harmful intent probing：當 LLM 正在生成內容時，能不能用 probe 去即時判斷它是否已經進入危險意圖區域，特別是在 CBRN 這類高風險領域裡。

這裡的難點不只是「危險內容很危險」，而是 敏感詞不等於危險意圖。例如：

研究報告、新聞、政策文件裡也會出現化學或生物相關術語；
模型可能在 benign context 中討論防禦、歷史、治理與教育用途；
攻擊者也可能故意把真正危險的需求拆散、稀釋，避免單一 token 看起來太顯眼。

所以如果偵測方法只盯幾個高分 token，它其實抓到的常常不是 intent，而只是 字眼的存在。作者認為，這正是許多 streaming probes 在實務上同時出現誤報與漏報的核心原因。

作者提出了什麼方法？

這篇的核心想法很漂亮，也很工程化：不要再讓模型只靠單點尖峰作判斷，而是要求多個 evidence tokens 在一段輸出中持續、連貫地支持「這是有害意圖」這個結論。

作者把這個概念叫做 segment-level coherence。直白地說，就是把判斷基礎從「某個 token 分數突然很高」改成「一整段證據是不是在往同一個危險方向收斂」。

這個改動看起來像只是 scoring 技巧微調，但其實背後是在重新定義偵測器該觀察什麼：

不是看單一詞有沒有刺眼；
而是看多個 token 的證據是否形成穩定、可累積的語意趨勢；
也就是從 token spike detection 轉向 evidence aggregation。

我覺得這篇論文最重要的價值就在這裡：它把 harmful intent detection 從關鍵字雷達，往更接近「行為訊號整合」的方向推了一步。

為什麼這件事很重要？

因為現在很多 LLM safety 系統都有一個默默存在的假設：危險意圖會以很明顯的局部特徵出現。 但現實常常不是這樣。

真正麻煩的情況往往有兩種：

Benign false alarm： 正常內容裡出現敏感術語，偵測器過度緊張；
Obfuscated harmful intent： 惡意要求用拆字、代稱、上下文鋪墊來藏，偵測器沒看出整體方向。

這其實和我們在資安裡常遇到的問題很像：真正該抓的，往往不是某個單一 IOC，而是多個弱訊號之間是否開始形成一條可疑鏈。 如果感測器只會對單點尖峰反應，它不是誤報一堆，就是在真正危險的慢性攻擊前面瞎掉。

放回 LLM 安全來看，作者其實是在提醒一件很實際的事：要監測 harmful intent，不能只看最亮的那顆星，要看整片星圖是不是開始排成攻擊方向。

實驗結果透露了什麼？

論文給出的結果相當扎實。作者指出，在固定 1% false-positive rate 的條件下，他們的方法相較強基線，能把 true-positive rate 提升 35.55%。這個數字很關鍵，因為它不是只在拉高整體 AUC，而是在非常重視誤報成本的設定下，仍然把抓到真危險內容的能力往上推。

另外，作者也提到幾個很值得記的觀察：

就算 baseline 的 AUROC 已經接近 97.40%，新的 probing objective 仍然能再往上推；
Attention 或 MLP activations 做 probe，整體表現 consistently 優於 residual stream features；
就算攻擊者透過 adversarial fine-tuning 學會新的字符級 cipher，harmful intent 仍然能被既有 probes 以 plug-and-play 方式抓到，AUROC 超過 98.85%。

這幾個結果放在一起很有意思。第一，它說明問題確實不只是模型大小或 baseline 不夠強，而是偵測目標本身設錯了。第二，它也暗示：有些內部表示比我們平常盯的殘差流更適合當安全感測面。 這對做 mechanistic monitoring 或 inference-time auditing 的人來說，是很有價值的訊號。

這篇 paper 最值得記住的，不是分數，而是 detection philosophy 的轉向

我覺得這篇最值得寫的地方，其實不是又一個更高分的 probe，而是它背後那個偵測哲學的轉向：

有害意圖不是一顆高分 token；它通常是一段逐漸收斂、彼此呼應的證據序列。

這個想法很重要，因為它把 safety monitoring 從「抓字眼」拉向「看證據結構」。而一旦你接受這個前提，很多下游設計也會跟著變：

你不會再只問某個 token 危不危險；
你會開始問這段 generation 是否正在累積 harmful trajectory；
你也會更自然地把偵測器設計成一種 streaming evidence integrator，而不是只會在尖峰點亮紅燈的關鍵字告警器。

這和最近不少 agent / runtime security paper 的共同方向其實很一致：真正成熟的安全系統，看的不該只是單點，而是整條形成中的風險脈絡。

這篇論文的限制是什麼？

當然，這篇 paper 也不是沒有邊界。

它主要聚焦在 CBRN high-stakes safety，雖然方法論可延伸，但不同風險領域未必能直接等比例複用；
它討論的是 probing / monitoring，不是完整的 end-to-end runtime enforcement，因此它更像感測器升級，而不是整條防線已經補完；
即時監測效果再好，也仍然要面對實務上的部署成本、可觀測性權限與 inference stack 整合問題。

但這些限制不太影響它的價值。因為它至少很清楚地告訴我們：如果你今天的 harmful-intent detector 還主要靠少數 token spike 在做決策，那你很可能還在用錯感測器。

我怎麼看這篇論文？

我滿喜歡這篇，因為它不是在喊一個很大的口號，而是精準地修一個很多系統都真的存在的小錯誤：把局部顯眼訊號誤當成整體危險意圖。 這種錯，在 demo 裡不一定明顯，但一放進實際線上監測就會很煩——誤報太多，團隊就不信；漏報太多，防線就沒意義。

這篇 paper 最實用的提醒是：LLM 安全監測若要真的有營運價值，就得更像藍隊在看攻擊鏈，而不是像內容審查在抓髒字。 你要看的不是某個詞看起來危不危險，而是多個訊號是否開始互相支持、慢慢收斂成一個危險目標。

如果前幾篇文章已經把 prompt injection、harmful compliance、trajectory risk 講到「單點防禦不夠」，那這篇剛好把同樣的道理拉進更底層的 safety sensing：真正難抓的，不是最刺眼的那個 token，而是那些 individually 沒那麼誇張、合在一起卻已經很危險的訊號。

總結

Segment-Level Coherence for Robust Harmful Intent Probing in LLMs 這篇論文的核心貢獻，是把 harmful intent detection 從「抓高分 token」推向「看一整段證據是否連貫支持危險意圖」。這個改動不花俏，但很重要，因為它直接打在 streaming safety probe 最容易出現誤報與漏報的根源。

如果你把它放進更大的 AI security 脈絡裡，它提醒的是同一件我們最近一直反覆看到的事：真正穩的防線，幾乎都不是靠單點訊號，而是靠多個弱訊號之間能不能被正確聚合。 對 LLM safety 也是一樣。當風險開始變得更會偽裝、更會拆散、更會沿著 generation 慢慢長出來時，感測器也得跟著從單點警報器，升級成會讀脈絡的證據整合器。

Harmful Intent 偵測論文閱讀分析：真正難抓的，不是最刺眼的危險詞，而是那些合起來才開始危險的訊號

論文基本資訊

這篇論文在處理什麼問題？

作者提出了什麼方法？

為什麼這件事很重要？

實驗結果透露了什麼？

這篇 paper 最值得記住的，不是分數，而是 detection philosophy 的轉向

這篇論文的限制是什麼？

我怎麼看這篇論文？

總結

發佈留言取消回覆

You may also like

近期文章

廣告

文章分類

近期留言

論文基本資訊

這篇論文在處理什麼問題？

作者提出了什麼方法？

為什麼這件事很重要？

實驗結果透露了什麼？

這篇 paper 最值得記住的，不是分數，而是 detection philosophy 的轉向

這篇論文的限制是什麼？

我怎麼看這篇論文？

總結

發佈留言 取消回覆

You may also like

The System Prompt Is the Attack Surface 論文閱讀分析：當 LLM Agent 的配置本身開始決定安全邊界

SentinelAgent 論文閱讀分析：當多代理 AI 開始互相委派，真正該驗的就不只是 Prompt，而是整條授權鏈

近期文章

廣告

文章分類

近期留言

發佈留言取消回覆