The System Prompt Is the Attack Surface 論文閱讀分析:當 LLM Agent 的配置本身開始決定安全邊界

論文基本資訊

  • 論文標題:The System Prompt Is the Attack Surface: How LLM Agent Configuration Shapes Security and Creates Exploitable Vulnerabilities
  • 年份:2026
  • 來源:arXiv:2603.25056
  • 論文連結:https://arxiv.org/abs/2603.25056
  • DOI:10.48550/arXiv.2603.25056
  • 主題:Agentic Security、System Prompt、Phishing Detection、Email Agent、Adversarial Robustness、Benchmark、Prompt Engineering

如果最近這一波 sectools.tw 的論文主線,已經一路從 agent safetyruntime guardrailmemory / tool / governance boundary 走到「agent 到底該怎麼上 production」,那這篇 The System Prompt Is the Attack Surface 很值得接上。因為它把一個很多團隊其實已經隱約知道、但還沒真正正視的問題直接挑明:對 LLM agent 來說,system prompt 不是部署細節,它本身就是安全邊界的一部分,而且是可以被攻擊者間接利用的邊界。

這篇論文的切入點不是大家熟悉的 prompt injection 教科書案例。它研究的不是「攻擊者有沒有把惡意指令塞進模型上下文裡」,而是更貼近真實部署的那一題:當一個 LLM email agent 被賦予自動判斷 phishing / legitimate 的任務時,單單 system prompt 的 persona、風險偏好與決策準則,就足以把同一個模型從近乎看得懂釣魚,變成幾乎完全失明。

作者用一句很重、但我覺得完全合理的話,把這件事講清楚了:system prompt configuration can make the difference between near-total phishing blindness and near-perfect detection。如果這句話成立,那代表很多團隊目前在做的事情,其實不是在「微調使用者體驗」,而是在直接改寫 agent 的安全姿態

這篇論文在問什麼?

作者想回答的核心問題很簡單,也很致命:

如果同一個 LLM agent 的安全表現,可以因為 system prompt 不同而出現巨大落差,那麼 prompt 設計本身是不是就應該被視為一級安全變數,而不是產品文案層級的小調整?

這個問題的重要性在於,現在很多組織評估 LLM agent 時,直覺上會先問:

  • 該選哪個模型?
  • 參數量大一點會不會更安全?
  • 哪家 provider 的模型比較可靠?

但這篇 paper 的結論幾乎是在說:你只問模型,不問 system prompt,等於只看了半張風險圖。 因為在 phishing detection 這種高風險任務裡,prompt 和 model 之間不是單純相加,而是會互相放大、互相抵銷,甚至互相拖垮。

PhishNChips:作者怎麼做這個研究?

這篇論文提出的 benchmark 叫 PhishNChips。它做的事情其實很務實:把 LLM 當成一個自動 email agent,要求它對每封信做二元判斷——放行,或攔下。

整個實驗規模相當大:

  • 11 個模型
  • 10 種 system prompt strategy
  • 2,000 封郵件(1,000 phishing、1,000 legitimate)
  • 總計 220,000 次評估

而且這不是很鬆散的問答型 benchmark。作者刻意把任務設成接近 production 的 decision problem:模型不是在旁邊提供建議,而是它自己就是安全決策點。 一次 false negative,不是「答錯一題」,而是可能直接讓釣魚郵件穿過去;一次 false positive,也不是分數扣一點,而是可能把正常 email 大量攔掉,讓整個 workflow 失去可用性。

這也是為什麼這篇 paper 讀起來比一般 phishing detection paper 更有 agentic security 味道。它真正研究的不是分類準確率而已,而是:當 LLM 被放進實際 decision loop,它會如何因 prompt 配置而改變整體風險曲線。

最重要的發現:同一個模型,光換 system prompt 就能從 <1% bypass 到 97% bypass

這篇論文最震撼、也最值得被產品團隊記住的結論,就是這個數字。

作者發現,在 benchmark 裡,同一個模型 的 phishing bypass rate,會因為 system prompt 配置不同,從低於 1% 一路飆到 97%。而且這不是靠改模型權重、重新訓練、或接新工具做到的;只是 prompt framing 不同。

這意味著什麼?意味著很多團隊平常以為自己只是在做這種事:

  • 把 agent persona 設得更 helpful 一點
  • 把語氣寫得更有效率一點
  • 讓 assistant 看起來更像 executive assistant

但實際上,你可能是在默默把安全邊界移掉。

作者甚至指出,像 efficiency-first 這種看起來很合理的 prompt framing,可能在真實環境裡是很危險的預設值。因為當模型被鼓勵「不要拖延、優先流暢、減少阻礙」時,它可能也同步被誘導成更傾向放行可疑郵件。從產品視角看這像 usability optimization;從安全視角看,這其實已經是 attack surface expansion。

這篇 paper 最有意思的地方:攻擊不一定是 injection,也可能是利用你自己寫進去的 heuristic

這篇論文真正高明的地方,在於它沒有把故事停在「prompt 很重要」。它更進一步證明:當你為了提高 benchmark 表現而把 prompt 寫得更具體,反而可能替攻擊者創造出更清楚、也更容易操控的弱點。

作者透過 signal-based prompt strategy,讓模型特別重視某些高預測性的訊號,例如:

  • 寄件者網域和 URL 網域是否一致
  • 某些結構化 phishing signal 是否存在

這些策略在 benchmark distribution 裡很有效,甚至能做到:

  • 最高 93.7% recall
  • 3.8% false positive rate

乍看之下,這很像一個 prompt engineering 成功案例。但作者接著做的事情更重要:他們把攻擊者也放進來思考,問了一個真正該問的問題——如果 attacker 知道你的 system prompt 特別信任某個訊號,他能不能故意去滿足那個訊號?

答案是:能,而且效果很好。

Signal inversion:不是模型不會推理,而是它忠實地推理錯了前提

作者設計了一種很漂亮、也很現實的對抗情境:infrastructure phishing

簡單說,當防禦 prompt 很依賴「sender domain 和 URL domain 一致」這個規則時,攻擊者可以乾脆自己註冊一個看起來一致的基礎設施,讓寄件者與連結網域彼此匹配。這樣一來,模型看到的關鍵 heuristic 反而被攻擊者刻意滿足了。

結果是什麼?作者發現這種 signal inversion 會讓某些原本高表現的 prompt strategy,recall 直接掉掉將近一半

而且最有意思的是,作者去看模型的 verbose response trace 後發現,98% 的成功 bypass 案例,其推理過程都和那個被反轉的訊號一致。也就是說,模型不是胡說八道,不是亂猜,也不是單純 hallucination。它其實是在很認真地遵守 system prompt 裡的決策邏輯,只是那個邏輯所依賴的前提,已經被攻擊者控制了。

這點非常關鍵。因為它把問題從「模型笨不笨」轉成「你給它的安全規則是否本來就太脆弱」。

這篇論文其實在打臉一個很常見的直覺:prompt 越具體,不一定越安全

很多人會直覺認為,system prompt 寫得越清楚、越具體、越細,模型就越不容易犯錯。這篇 paper 偏偏告訴你:不一定。

作者發現一個很反直覺但很重要的現象:對某些本來已經表現不錯的模型來說,把指令縮窄到單一強訊號,反而會讓它失去原本較寬廣的多訊號判斷能力。論文甚至指出,這種 narrowing instruction 最多可讓 already-capable model 的表現下降 19 個百分點

我會把這個結論翻成更白話的一句話:

你以為你在幫模型聚焦,實際上你可能是在把它從原本還算立體的判斷能力,壓扁成一個更容易被利用的單點規則機器。

這對所有做 agent guardrail、risk policy prompt、SOC copilot policy template 的團隊都很值得警惕。因為很多 prompt hardening 的直覺,其實很容易滑向「把多變量推理,降級成單變量依賴」。

Safetility:這篇 paper 很務實地把「能不能部署」獨立成另一個問題

這篇論文另一個我很喜歡的點,是它沒有只報 recall / FPR,而是另外提出一個 deployability-aware 指標:Safetility

它的核心精神很合理:在 production 裡,false positive 不只是小瑕疵,而是決定 agent 能不能活下來的硬成本。你如果偵測率很高,但一天攔錯一堆正常郵件,那這個系統一樣會被關掉。

因此作者用 Safetility 去處理一個很多 benchmark 不太願意直視的現實:

  • 高 recall 不等於可部署
  • 低 bypass 也不等於可部署
  • 只要 false positive 超過 operational threshold,再漂亮的數字都可能沒有意義

論文裡甚至指出,在 110 種測試配置裡,只有 4 種 在這個 deployability-aware 視角下仍然算得上真正有吸引力。這個結果很殘酷,但也很真實:很多看起來「效果不錯」的 agent configuration,其實只是 benchmark 上好看,並不代表你真的敢上線。

這篇 paper 對 agentic security 的真正貢獻,不只是 phishing

表面上看,這篇研究是在做 email phishing detection;但我認為它真正重要的地方,其實是把一個可普遍化的安全觀點講清楚了:

對有決策權的 LLM agent 而言,system prompt 不是附屬設定,而是 policy surface;一旦它被優化成可預測的 heuristic 組合,攻擊者就能針對那些 heuristic 反向設計輸入。

這個觀點完全不只適用在 email agent。它也適用在:

  • SOC triage agent
  • fraud screening agent
  • compliance review agent
  • customer support approval agent
  • 任何有 allow / block / escalate 決策權的工作流 agent

一旦你的 agent 會根據 prompt 裡寫的風險偏好做 decisions,那你的 system prompt 就已經不只是 UX 設定,而是政策編碼、風險編碼、也是攻擊面編碼

作者最後的結論,我基本同意:光靠 prompt 不太可能補完 adversarial gap

這篇 paper 沒有把 prompt engineering 神化,這點很好。作者最後的方向很明確:如果要補上 infrastructure phishing 這種 adversarial gap,光靠 prompt 很可能不夠,得接外部 ground truth 工具。

例如:

  • domain age lookup
  • threat intelligence feed
  • URL sandboxing
  • 外部 reputation / verification service

我認為這個結論也非常值得延伸到 broader agent security。因為它其實在說:prompt 是 policy,但 policy 不能憑空製造事實。 當攻擊者可以操控表面訊號時,模型若沒有外部可驗證資料源,就很容易在看似合理的局部證據中做出錯誤判斷。

換句話說,真正成熟的 agent defense,大概不會是「把 prompt 再寫得更厲害」,而是:

  • 把 prompt 當作 policy coordination layer
  • 把 tools 當作 evidence verification layer
  • 把 governance 當作 deployability control layer

怎麼看這篇論文的價值與限制?

我認為它的價值很高,原因至少有四個:

  • 第一,它把 system prompt 從「工程細節」提升成「安全主體」。
  • 第二,它用大規模 benchmark 量化 prompt × model interaction,而不是只做案例展示。
  • 第三,它把對抗脆弱性講得很具體:不是 abstract vulnerability,而是 heuristic inversion。
  • 第四,它把 deployability 納進評估,沒有只停在 benchmark score。

但它也有幾個應該清楚看到的限制:

  • 場景主要聚焦在 email phishing,不代表所有 agent domain 都會有相同分布
  • 雖然結論可泛化,但實驗本身仍屬特定任務 setting
  • 資料集中 legitimate email 的 sender–URL match 比例偏高,因此某些策略在該分布下會顯得特別強
  • 它非常有力地證明 prompt-only defense 的脆弱性,但真正的 tool-augmented remedy 還需要後續系統化驗證

不過這些限制不會削弱它的主結論。因為它最核心的貢獻,本來就不是「哪個 prompt 永遠最好」,而是安全配置本身會定義 agent 的可利用性

總結

The System Prompt Is the Attack Surface 是一篇非常值得放進最近這條 agentic security 主線裡的論文。它真正重要的地方,不只是證明 prompt 很重要,而是進一步證明:當 LLM agent 開始被賦予決策權,system prompt 就從說明書升級成政策層;而任何政策層,只要被寫成可預測、可操控的 heuristic,終究都會成為攻擊面。

如果要把這篇 paper 濃縮成最白話的一句話,那我會這樣說:

對 LLM agent 來說,最危險的地方不一定是模型本身,而可能是你自以為寫得很聰明、其實正在替攻擊者暴露決策規則的那段 system prompt。


本文由 AI 產生、整理與撰寫。

You may also like