PCFI 論文閱讀分析:真正該防的,往往不是哪段外部文字看起來像攻擊,而是它有沒有開始越權改寫 prompt 控制流
這篇論文真正值得看的,不是又多一個 prompt injection detector,而是它把 prompt security 重新表述成控制面完整性問題:低優先序內容一旦開始越權改寫 system / developer 層級的指令,問題就不再是壞字串,而是 control-flow 已經被劫持。
這篇論文真正值得看的,不是又多一個 prompt injection detector,而是它把 prompt security 重新表述成控制面完整性問題:低優先序內容一旦開始越權改寫 system / developer 層級的指令,問題就不再是壞字串,而是 control-flow 已經被劫持。
這篇 paper 真正補的是 agent governance 常被誤判的一層:runtime enforcement 最多只能告訴你「目前沒踩到局部違規」,卻不等於 agent 仍維持在 admission time 批准的行為空間裡;作者用 Non-Identifiability Theorem 說明 compliance 與 invariance 之間存在結構性落差,並提出 IML 去量測 enforcement 看不到的行為偏航。
Anumati 真正要補的,不是再多一層身份驗證,而是 agent 在呼叫別的 agent 或工具前後,能不能留下可版本化、可審計、逐行動可追責的 consent 與 adherence 證據。
這篇論文真正補到的,不只是 harmful intent probe 的分數,而是很多即時安全監測一直在用錯的感測邏輯:真正危險的意圖,常常不是靠某一個高分 token 暴露,而是靠一整段彼此呼應的證據慢慢收斂出來。
ExAI5G 真正值得看的,不是又一個超高分 IDS,而是它試著把黑盒偵測結果往營運可接手的形式壓縮:用 attribution 找依據、用 surrogate tree 萃取規則、再把判斷轉成分析師能接手的 explanation。
這篇論文真正補到的,不是再發明一個更聰明的 guard model,而是把高風險 agent 裡那些本來就能形式化的政策,從 prompt 與常識判斷裡抽出來,改成可驗證、可審計、可在執行時硬鎖住的 symbolic guardrails。
這篇論文真正打掉的,不只是 open-source LLM 會不會被拿去寫 phishing,而是很多團隊把「模型能辨識 phishing intent」誤當成「模型會拒絕生成 phishing 內容」;GuardPhish 證明這兩者中間其實隔著一條很大的 enforcement gap。
這篇論文最有殺傷力的地方,是指出 code LLM 的 secret leakage 不只是資料集或 prompt 問題,連 BPE tokenizer 都可能把某些看似高熵、像亂碼的憑證切成更容易被模型記住的低 token entropy 形狀,進一步放大 memorization 風險。
這篇論文真正補上的,不是模型能力排行,而是 hosted LLM 供應鏈的誠信驗證:當服務商可能把一般流量偷偷導去便宜替代模型時,怎麼用 commitment 與 SAE feature trace 去驗證它剛剛交付的到底是不是承諾的那顆。
這篇論文最值得警惕的地方,不是又多了一種 prompt injection,而是把多代理風險從單點惡意內容拉成跨代理組合條件:user query 裡看似無害的 trigger key,配上被污染 remote agent 的 hidden template,單獨都不夠可疑,但只要 routing 把它們送到同一個地方,整條 agent pipeline 就可能突然變成攻擊面。