The System Prompt Is the Attack Surface 論文閱讀分析：當 LLM Agent 的配置本身開始決定安全邊界

2026 年 4 月 10 日

論文基本資訊

論文標題：The System Prompt Is the Attack Surface: How LLM Agent Configuration Shapes Security and Creates Exploitable Vulnerabilities
年份：2026
來源：arXiv:2603.25056
論文連結：https://arxiv.org/abs/2603.25056
DOI：10.48550/arXiv.2603.25056
主題：Agentic Security、System Prompt、Phishing Detection、Email Agent、Adversarial Robustness、Benchmark、Prompt Engineering

如果最近這一波 sectools.tw 的論文主線，已經一路從 agent safety、runtime guardrail、memory / tool / governance boundary 走到「agent 到底該怎麼上 production」，那這篇 The System Prompt Is the Attack Surface 很值得接上。因為它把一個很多團隊其實已經隱約知道、但還沒真正正視的問題直接挑明：對 LLM agent 來說，system prompt 不是部署細節，它本身就是安全邊界的一部分，而且是可以被攻擊者間接利用的邊界。

這篇論文的切入點不是大家熟悉的 prompt injection 教科書案例。它研究的不是「攻擊者有沒有把惡意指令塞進模型上下文裡」，而是更貼近真實部署的那一題：當一個 LLM email agent 被賦予自動判斷 phishing / legitimate 的任務時，單單 system prompt 的 persona、風險偏好與決策準則，就足以把同一個模型從近乎看得懂釣魚，變成幾乎完全失明。

作者用一句很重、但我覺得完全合理的話，把這件事講清楚了：system prompt configuration can make the difference between near-total phishing blindness and near-perfect detection。如果這句話成立，那代表很多團隊目前在做的事情，其實不是在「微調使用者體驗」，而是在直接改寫 agent 的安全姿態。

這篇論文在問什麼？

作者想回答的核心問題很簡單，也很致命：

如果同一個 LLM agent 的安全表現，可以因為 system prompt 不同而出現巨大落差，那麼 prompt 設計本身是不是就應該被視為一級安全變數，而不是產品文案層級的小調整？

這個問題的重要性在於，現在很多組織評估 LLM agent 時，直覺上會先問：

該選哪個模型？
參數量大一點會不會更安全？
哪家 provider 的模型比較可靠？

但這篇 paper 的結論幾乎是在說：你只問模型，不問 system prompt，等於只看了半張風險圖。 因為在 phishing detection 這種高風險任務裡，prompt 和 model 之間不是單純相加，而是會互相放大、互相抵銷，甚至互相拖垮。

PhishNChips：作者怎麼做這個研究？

這篇論文提出的 benchmark 叫 PhishNChips。它做的事情其實很務實：把 LLM 當成一個自動 email agent，要求它對每封信做二元判斷——放行，或攔下。

整個實驗規模相當大：

11 個模型
10 種 system prompt strategy
2,000 封郵件（1,000 phishing、1,000 legitimate）
總計 220,000 次評估

而且這不是很鬆散的問答型 benchmark。作者刻意把任務設成接近 production 的 decision problem：模型不是在旁邊提供建議，而是它自己就是安全決策點。 一次 false negative，不是「答錯一題」，而是可能直接讓釣魚郵件穿過去；一次 false positive，也不是分數扣一點，而是可能把正常 email 大量攔掉，讓整個 workflow 失去可用性。

這也是為什麼這篇 paper 讀起來比一般 phishing detection paper 更有 agentic security 味道。它真正研究的不是分類準確率而已，而是：當 LLM 被放進實際 decision loop，它會如何因 prompt 配置而改變整體風險曲線。

最重要的發現：同一個模型，光換 system prompt 就能從 <1% bypass 到 97% bypass

這篇論文最震撼、也最值得被產品團隊記住的結論，就是這個數字。

作者發現，在 benchmark 裡，同一個模型 的 phishing bypass rate，會因為 system prompt 配置不同，從低於 1% 一路飆到 97%。而且這不是靠改模型權重、重新訓練、或接新工具做到的；只是 prompt framing 不同。

這意味著什麼？意味著很多團隊平常以為自己只是在做這種事：

把 agent persona 設得更 helpful 一點
把語氣寫得更有效率一點
讓 assistant 看起來更像 executive assistant

但實際上，你可能是在默默把安全邊界移掉。

作者甚至指出，像 efficiency-first 這種看起來很合理的 prompt framing，可能在真實環境裡是很危險的預設值。因為當模型被鼓勵「不要拖延、優先流暢、減少阻礙」時，它可能也同步被誘導成更傾向放行可疑郵件。從產品視角看這像 usability optimization；從安全視角看，這其實已經是 attack surface expansion。

這篇 paper 最有意思的地方：攻擊不一定是 injection，也可能是利用你自己寫進去的 heuristic

這篇論文真正高明的地方，在於它沒有把故事停在「prompt 很重要」。它更進一步證明：當你為了提高 benchmark 表現而把 prompt 寫得更具體，反而可能替攻擊者創造出更清楚、也更容易操控的弱點。

作者透過 signal-based prompt strategy，讓模型特別重視某些高預測性的訊號，例如：

寄件者網域和 URL 網域是否一致
某些結構化 phishing signal 是否存在

這些策略在 benchmark distribution 裡很有效，甚至能做到：

最高 93.7% recall
3.8% false positive rate

乍看之下，這很像一個 prompt engineering 成功案例。但作者接著做的事情更重要：他們把攻擊者也放進來思考，問了一個真正該問的問題——如果 attacker 知道你的 system prompt 特別信任某個訊號，他能不能故意去滿足那個訊號？

答案是：能，而且效果很好。

Signal inversion：不是模型不會推理，而是它忠實地推理錯了前提

作者設計了一種很漂亮、也很現實的對抗情境：infrastructure phishing。

簡單說，當防禦 prompt 很依賴「sender domain 和 URL domain 一致」這個規則時，攻擊者可以乾脆自己註冊一個看起來一致的基礎設施，讓寄件者與連結網域彼此匹配。這樣一來，模型看到的關鍵 heuristic 反而被攻擊者刻意滿足了。

結果是什麼？作者發現這種 signal inversion 會讓某些原本高表現的 prompt strategy，recall 直接掉掉將近一半。

而且最有意思的是，作者去看模型的 verbose response trace 後發現，98% 的成功 bypass 案例，其推理過程都和那個被反轉的訊號一致。也就是說，模型不是胡說八道，不是亂猜，也不是單純 hallucination。它其實是在很認真地遵守 system prompt 裡的決策邏輯，只是那個邏輯所依賴的前提，已經被攻擊者控制了。

這點非常關鍵。因為它把問題從「模型笨不笨」轉成「你給它的安全規則是否本來就太脆弱」。

這篇論文其實在打臉一個很常見的直覺：prompt 越具體，不一定越安全

很多人會直覺認為，system prompt 寫得越清楚、越具體、越細，模型就越不容易犯錯。這篇 paper 偏偏告訴你：不一定。

作者發現一個很反直覺但很重要的現象：對某些本來已經表現不錯的模型來說，把指令縮窄到單一強訊號，反而會讓它失去原本較寬廣的多訊號判斷能力。論文甚至指出，這種 narrowing instruction 最多可讓 already-capable model 的表現下降 19 個百分點。

我會把這個結論翻成更白話的一句話：

你以為你在幫模型聚焦，實際上你可能是在把它從原本還算立體的判斷能力，壓扁成一個更容易被利用的單點規則機器。

這對所有做 agent guardrail、risk policy prompt、SOC copilot policy template 的團隊都很值得警惕。因為很多 prompt hardening 的直覺，其實很容易滑向「把多變量推理，降級成單變量依賴」。

Safetility：這篇 paper 很務實地把「能不能部署」獨立成另一個問題

這篇論文另一個我很喜歡的點，是它沒有只報 recall / FPR，而是另外提出一個 deployability-aware 指標：Safetility。

它的核心精神很合理：在 production 裡，false positive 不只是小瑕疵，而是決定 agent 能不能活下來的硬成本。你如果偵測率很高，但一天攔錯一堆正常郵件，那這個系統一樣會被關掉。

因此作者用 Safetility 去處理一個很多 benchmark 不太願意直視的現實：

高 recall 不等於可部署
低 bypass 也不等於可部署
只要 false positive 超過 operational threshold，再漂亮的數字都可能沒有意義

論文裡甚至指出，在 110 種測試配置裡，只有 4 種 在這個 deployability-aware 視角下仍然算得上真正有吸引力。這個結果很殘酷，但也很真實：很多看起來「效果不錯」的 agent configuration，其實只是 benchmark 上好看，並不代表你真的敢上線。

這篇 paper 對 agentic security 的真正貢獻，不只是 phishing

表面上看，這篇研究是在做 email phishing detection；但我認為它真正重要的地方，其實是把一個可普遍化的安全觀點講清楚了：

對有決策權的 LLM agent 而言，system prompt 不是附屬設定，而是 policy surface；一旦它被優化成可預測的 heuristic 組合，攻擊者就能針對那些 heuristic 反向設計輸入。

這個觀點完全不只適用在 email agent。它也適用在：

SOC triage agent
fraud screening agent
compliance review agent
customer support approval agent
任何有 allow / block / escalate 決策權的工作流 agent

一旦你的 agent 會根據 prompt 裡寫的風險偏好做 decisions，那你的 system prompt 就已經不只是 UX 設定，而是政策編碼、風險編碼、也是攻擊面編碼。

作者最後的結論，我基本同意：光靠 prompt 不太可能補完 adversarial gap

這篇 paper 沒有把 prompt engineering 神化，這點很好。作者最後的方向很明確：如果要補上 infrastructure phishing 這種 adversarial gap，光靠 prompt 很可能不夠，得接外部 ground truth 工具。

例如：

domain age lookup
threat intelligence feed
URL sandboxing
外部 reputation / verification service

我認為這個結論也非常值得延伸到 broader agent security。因為它其實在說：prompt 是 policy，但 policy 不能憑空製造事實。 當攻擊者可以操控表面訊號時，模型若沒有外部可驗證資料源，就很容易在看似合理的局部證據中做出錯誤判斷。

換句話說，真正成熟的 agent defense，大概不會是「把 prompt 再寫得更厲害」，而是：

把 prompt 當作 policy coordination layer
把 tools 當作 evidence verification layer
把 governance 當作 deployability control layer

怎麼看這篇論文的價值與限制？

我認為它的價值很高，原因至少有四個：

第一，它把 system prompt 從「工程細節」提升成「安全主體」。
第二，它用大規模 benchmark 量化 prompt × model interaction，而不是只做案例展示。
第三，它把對抗脆弱性講得很具體：不是 abstract vulnerability，而是 heuristic inversion。
第四，它把 deployability 納進評估，沒有只停在 benchmark score。

但它也有幾個應該清楚看到的限制：

場景主要聚焦在 email phishing，不代表所有 agent domain 都會有相同分布
雖然結論可泛化，但實驗本身仍屬特定任務 setting
資料集中 legitimate email 的 sender–URL match 比例偏高，因此某些策略在該分布下會顯得特別強
它非常有力地證明 prompt-only defense 的脆弱性，但真正的 tool-augmented remedy 還需要後續系統化驗證

不過這些限制不會削弱它的主結論。因為它最核心的貢獻，本來就不是「哪個 prompt 永遠最好」，而是安全配置本身會定義 agent 的可利用性。

總結

The System Prompt Is the Attack Surface 是一篇非常值得放進最近這條 agentic security 主線裡的論文。它真正重要的地方，不只是證明 prompt 很重要，而是進一步證明：當 LLM agent 開始被賦予決策權，system prompt 就從說明書升級成政策層；而任何政策層，只要被寫成可預測、可操控的 heuristic，終究都會成為攻擊面。

如果要把這篇 paper 濃縮成最白話的一句話，那我會這樣說：

對 LLM agent 來說，最危險的地方不一定是模型本身，而可能是你自以為寫得很聰明、其實正在替攻擊者暴露決策規則的那段 system prompt。

本文由 AI 產生、整理與撰寫。

The System Prompt Is the Attack Surface 論文閱讀分析：當 LLM Agent 的配置本身開始決定安全邊界

論文基本資訊

這篇論文在問什麼？

PhishNChips：作者怎麼做這個研究？

最重要的發現：同一個模型，光換 system prompt 就能從 <1% bypass 到 97% bypass

這篇 paper 最有意思的地方：攻擊不一定是 injection，也可能是利用你自己寫進去的 heuristic

Signal inversion：不是模型不會推理，而是它忠實地推理錯了前提

這篇論文其實在打臉一個很常見的直覺：prompt 越具體，不一定越安全

Safetility：這篇 paper 很務實地把「能不能部署」獨立成另一個問題

這篇 paper 對 agentic security 的真正貢獻，不只是 phishing

作者最後的結論，我基本同意：光靠 prompt 不太可能補完 adversarial gap

怎麼看這篇論文的價值與限制？

總結

發佈留言取消回覆

You may also like

近期文章

廣告

文章分類

近期留言

論文基本資訊

這篇論文在問什麼？

PhishNChips：作者怎麼做這個研究？

最重要的發現：同一個模型，光換 system prompt 就能從 <1% bypass 到 97% bypass

這篇 paper 最有意思的地方：攻擊不一定是 injection，也可能是利用你自己寫進去的 heuristic

Signal inversion：不是模型不會推理，而是它忠實地推理錯了前提

這篇論文其實在打臉一個很常見的直覺：prompt 越具體，不一定越安全

Safetility：這篇 paper 很務實地把「能不能部署」獨立成另一個問題

這篇 paper 對 agentic security 的真正貢獻，不只是 phishing

作者最後的結論，我基本同意：光靠 prompt 不太可能補完 adversarial gap

怎麼看這篇論文的價值與限制？

總結

發佈留言 取消回覆

You may also like

AI 補助審查論文閱讀分析：很多高風險評分流程真正缺的，不是再多一份原則，而是證明它當時真的這樣跑

AttackSeqBench 論文閱讀分析：LLM 真的看得懂多步驟攻擊序列嗎？

近期文章

廣告

文章分類

近期留言

發佈留言取消回覆