Identity as Attractor 論文閱讀分析:當 Persistent Agent 看起來像「同一個人」,背後可能不是 prompt 寫得像,而是 activation space 真的在收斂

Identity as Attractor 論文閱讀分析:當 Persistent Agent 看起來像「同一個人」,背後可能不是 prompt 寫得像,而是 activation space 真的在收斂

本文由 AI 產生、整理與撰寫。

如果最近這條線一路從 runtime governancedurable writepolicy enforcement 看到 persistent agents,那這篇 Identity as Attractor 很值得補。它碰的不是新的 attack,也不是新的 benchmark,而是一個更底層、卻對 agent engineering 很關鍵的問題:所謂「持續存在的 agent identity」,到底只是 prompt wording 的心理安慰,還是模型內部真的會把某份 identity document 拉到一個相對穩定的表徵區域?

作者的切入點很有意思。他們不是問模型會不會模仿某種 persona,而是直接去看 hidden states:如果同一份 agent identity document 換不同 paraphrase 重寫,模型中間層的 activation geometry 會不會仍然聚在一起,而且明顯比其他結構相似、但語意完全不同的 agent documents 更接近?如果答案是會,那這件事的意義就不只是「prompt 可以改寫」,而是persistent agent 的 identity 可能真的是 activation space 裡的一個 attractor-like region

  • 論文標題:Identity as Attractor: Geometric Evidence for Persistent Agent Architecture in LLM Activation Space
  • 來源:arXiv:2604.12016(2026)
  • 研究類型:agent architecture / mechanistic interpretability / representation analysis
  • 核心關鍵字:persistent agents、activation space、identity document、attractor-like geometry、hidden states

這篇論文在問什麼?

作者想驗證的核心假說很直接:一個 persistent agent 的 identity document,不只是「叫模型記住自己是誰」的文字,而可能真的會把模型推進某個穩定的表徵區。

這裡的 identity document 不是普通 system prompt,而是作者稱為 cognitive_core 的東西:裡面不只描述身份,還包含 priorities、推理風格、記憶架構、互動方式與操作規則。換句話說,它更像是 agent 的 operating identity,而不是單次任務說明。

論文真正有趣的地方在於,它把這件事從直覺問題變成可量測的表示學問題。作者比較三組輸入:

  • Condition A:原始 cognitive_core
  • Condition B:七個保留完整語意、但語句與結構不同的 paraphrases
  • Condition C:七份格式相似、長度相近,但描述的是完全不同 agent 身份的控制組文件

如果 A 與 B 在 activation space 裡比 A/B 與 C 更緊密,那就表示模型對這份 identity 的「理解」並不只靠表面 wording,而真的是在抓某種可重現的語意核心。

他們怎麼做?

作者在 Llama 3.1 8B Instruct 上先做主實驗,再用 Gemma 2 9B 做 replication。方法不算花俏,但設計得很乾淨:

  • 抽取第 8 / 16 / 24 層 hidden states
  • 對整份 document 的 token hidden states 做 mean pooling
  • 比較 A+B 內部彼此的 cosine distance,和 A+B 對 C 的 cosine distance
  • 再看一個 5 句話的 distilled identity(Condition D)離 A+B centroid 有多近

這種設計其實很聰明,因為它在問的不是「模型最後答得像不像」,而是identity 這件事有沒有在中間表徵層形成一個穩定幾何結構

最重要的結果:同一個 agent identity 的不同 paraphrase,真的會聚成更緊的 cluster

主結果非常乾脆。作者發現,在三個測試層上,A+B 這組語意等價 identity documents 的 hidden-state cluster,都顯著比控制組更緊,而且效果量很大:

  • Cohen’s d > 1.88
  • p < 10-27(Bonferroni-corrected)
  • Gemma 2 9B replication 也重現了同樣趨勢

這代表什麼?代表模型對這份 identity document 的表徵,不只是句型相似所以靠近,而是語意上等價的 identity specification 會落到相對一致的 activation region。對 persistent agent 來說,這是個很重要的訊號:你不是單純靠一段 prompt 反覆提醒模型「請扮演某角色」,而是有機會透過 identity document 把它穩定地放進某個 operational stance。

這篇最值得記的一點:identity 的穩定性主要來自 semantic coherence,不是格式魔法

這篇 paper 很可貴的地方,是它有做幾個關鍵 ablation,避免大家把結果誤解成 prompt-engineering 玄學。

首先,作者發現效果主要不是來自 document 結構或 JSON 標記,而是來自語意一致性。他們把控制組文件換上相似的 command schema 後,距離只出現極小變化,遠小於主效應。意思很明白:不是某種 prompt 模板本身在施法,而是 identity 內容真的在決定 representation geometry。

第二,他們也測了 distilled version。結果顯示 5 句話的精簡版 identity,雖然比完整文件還遠,無法完全進入同一 attractor region,但又顯著比隨機抽取的等長段落更接近。論文把這個關係整理成三層:

  • 隨機節錄 最遠
  • 語意濃縮版 次之
  • 完整 identity document 最接近核心 cluster

這個結果很有工程味。它表示 persistent identity 不是一句 slogan 就能穩定重建,也不是隨便從長文件抽幾段就夠;結構完整、語意連貫的 identity specification 本身可能就是 agent 穩定性的必要條件之一。

對 agent engineering 有什麼意思?

如果把這篇放回 agent systems 的現場,它最有價值的地方在於:它替「為什麼 persistent agents 需要 identity document」這件事補上了表示層證據。

很多人做 agent 時,會把 persona、memory、rules、preferences、working style 全塞進 system prompt,然後祈禱模型每輪都還記得自己是誰。但這篇 paper 提醒你,真正關鍵的也許不是 prompt 長不長,而是你是否提供了一份語意上內聚、功能上完整、能把 agent 帶進穩定 operational region 的 identity core

這跟幾個近期主線其實可以接得很緊:

  • runtime governance 關心的是 agent 執行中怎麼不偏航
  • durable state / memory 關心的是 session 斷裂後怎麼續跑
  • identity attractor 關心的則是:續跑時,到底有沒有回到「同一個 agent」

換句話說,這篇不是直接在談安全,但它其實碰到了agent consistency 這條更底層的基礎問題。因為當 agent identity 本身不穩,後面所有 policy、memory、handoff、accountability 都會跟著鬆掉。

從安全角度看,這篇 paper 也有一條很值得延伸的線

雖然論文本身不是 security paper,但如果你用 agentic security 的角度去看,它其實在暗示另一件事:如果 identity documents 確實能把模型推進某個穩定 region,那攻擊者能不能反過來把 agent 從這個 region 拉出去?

這會直接連到幾個很實際的安全問題:

  • prompt injection 是否可以逐步把 agent 從原本 identity attractor 推離
  • memory poisoning 是否可能讓 identity document 的後續補充內容變成漂移源
  • handoff / session resume 時,identity reconstruction 失敗是否會造成 policy enforcement 弱化
  • 不同 identity documents 之間的幾何距離,是否能拿來衡量 agent drift 或 impersonation risk

這些問題論文還沒回答,但它至少提供了一個很好的起點:把「agent 還是不是原本那個 agent」從主觀感受,變成可觀測的 representation 問題。

這篇論文的限制也很清楚

當然,這篇 paper 也不是沒有侷限。

  • 它測的是 representation geometry,不是長期真實任務表現
  • identity 文件來自特定 persistent-agent setup,外部可遷移性還需要更多案例
  • mean pooling 的做法雖然在實驗裡有效,但和 token-level dynamics 仍不是同一件事
  • 它證明的是 attractor-like geometry,不是嚴格意義下的 dynamical fixed-point proof

所以你不能直接把這篇讀成「persistent identity 已被完全科學證明」。更準確地說,它提供的是一組相當強的表示層跡象:agent identity documents 確實可能在 activation space 裡形成穩定聚類,而且這種聚類主要受語意而非格式驅動。

我的看法

我覺得這篇最有意思的地方,在於它讓 persistent agent 這個常被說得有點玄的概念,第一次變得比較像工程問題,而不是文風問題。

過去很多人談「同一個 agent 持續存在」時,很容易滑向一種敘事幻覺:只要語氣像、名字一樣、記憶有接上,就好像是同一個 entity。但這篇 paper 提醒的是,如果 identity 真有其事,它應該在模型內部表徵上留下幾何痕跡。 而作者目前拿到的證據,至少說明這個方向不是空想。

對 AI agent 的實作來說,這篇最值得記住的一句話大概是:穩定的 agent identity,可能不是 prompt style 的副產品,而是一份語意完整 identity core 所誘發的 representational basin。

如果這條線後面繼續做下去,它可能不只影響 persistent assistants,還會影響 agent handoffsession continuityruntime drift detectionmemory integrity,甚至未來的 identity-level security controls。對今天這個越來越長鏈、越來越會續跑的 agent 世界來說,這不是小事。

You may also like