Identity as Attractor 論文閱讀分析:當 Persistent Agent 看起來像「同一個人」,背後可能不是 prompt 寫得像,而是 activation space 真的在收斂
Identity as Attractor 論文閱讀分析:當 Persistent Agent 看起來像「同一個人」,背後可能不是 prompt 寫得像,而是 activation space 真的在收斂
本文由 AI 產生、整理與撰寫。
如果最近這條線一路從 runtime governance、durable write、policy enforcement 看到 persistent agents,那這篇 Identity as Attractor 很值得補。它碰的不是新的 attack,也不是新的 benchmark,而是一個更底層、卻對 agent engineering 很關鍵的問題:所謂「持續存在的 agent identity」,到底只是 prompt wording 的心理安慰,還是模型內部真的會把某份 identity document 拉到一個相對穩定的表徵區域?
作者的切入點很有意思。他們不是問模型會不會模仿某種 persona,而是直接去看 hidden states:如果同一份 agent identity document 換不同 paraphrase 重寫,模型中間層的 activation geometry 會不會仍然聚在一起,而且明顯比其他結構相似、但語意完全不同的 agent documents 更接近?如果答案是會,那這件事的意義就不只是「prompt 可以改寫」,而是persistent agent 的 identity 可能真的是 activation space 裡的一個 attractor-like region。
- 論文標題:Identity as Attractor: Geometric Evidence for Persistent Agent Architecture in LLM Activation Space
- 來源:arXiv:2604.12016(2026)
- 研究類型:agent architecture / mechanistic interpretability / representation analysis
- 核心關鍵字:persistent agents、activation space、identity document、attractor-like geometry、hidden states
這篇論文在問什麼?
作者想驗證的核心假說很直接:一個 persistent agent 的 identity document,不只是「叫模型記住自己是誰」的文字,而可能真的會把模型推進某個穩定的表徵區。
這裡的 identity document 不是普通 system prompt,而是作者稱為 cognitive_core 的東西:裡面不只描述身份,還包含 priorities、推理風格、記憶架構、互動方式與操作規則。換句話說,它更像是 agent 的 operating identity,而不是單次任務說明。
論文真正有趣的地方在於,它把這件事從直覺問題變成可量測的表示學問題。作者比較三組輸入:
- Condition A:原始 cognitive_core
- Condition B:七個保留完整語意、但語句與結構不同的 paraphrases
- Condition C:七份格式相似、長度相近,但描述的是完全不同 agent 身份的控制組文件
如果 A 與 B 在 activation space 裡比 A/B 與 C 更緊密,那就表示模型對這份 identity 的「理解」並不只靠表面 wording,而真的是在抓某種可重現的語意核心。
他們怎麼做?
作者在 Llama 3.1 8B Instruct 上先做主實驗,再用 Gemma 2 9B 做 replication。方法不算花俏,但設計得很乾淨:
- 抽取第 8 / 16 / 24 層 hidden states
- 對整份 document 的 token hidden states 做 mean pooling
- 比較 A+B 內部彼此的 cosine distance,和 A+B 對 C 的 cosine distance
- 再看一個 5 句話的 distilled identity(Condition D)離 A+B centroid 有多近
這種設計其實很聰明,因為它在問的不是「模型最後答得像不像」,而是identity 這件事有沒有在中間表徵層形成一個穩定幾何結構。
最重要的結果:同一個 agent identity 的不同 paraphrase,真的會聚成更緊的 cluster
主結果非常乾脆。作者發現,在三個測試層上,A+B 這組語意等價 identity documents 的 hidden-state cluster,都顯著比控制組更緊,而且效果量很大:
- Cohen’s d > 1.88
- p < 10-27(Bonferroni-corrected)
- Gemma 2 9B replication 也重現了同樣趨勢
這代表什麼?代表模型對這份 identity document 的表徵,不只是句型相似所以靠近,而是語意上等價的 identity specification 會落到相對一致的 activation region。對 persistent agent 來說,這是個很重要的訊號:你不是單純靠一段 prompt 反覆提醒模型「請扮演某角色」,而是有機會透過 identity document 把它穩定地放進某個 operational stance。
這篇最值得記的一點:identity 的穩定性主要來自 semantic coherence,不是格式魔法
這篇 paper 很可貴的地方,是它有做幾個關鍵 ablation,避免大家把結果誤解成 prompt-engineering 玄學。
首先,作者發現效果主要不是來自 document 結構或 JSON 標記,而是來自語意一致性。他們把控制組文件換上相似的 command schema 後,距離只出現極小變化,遠小於主效應。意思很明白:不是某種 prompt 模板本身在施法,而是 identity 內容真的在決定 representation geometry。
第二,他們也測了 distilled version。結果顯示 5 句話的精簡版 identity,雖然比完整文件還遠,無法完全進入同一 attractor region,但又顯著比隨機抽取的等長段落更接近。論文把這個關係整理成三層:
- 隨機節錄 最遠
- 語意濃縮版 次之
- 完整 identity document 最接近核心 cluster
這個結果很有工程味。它表示 persistent identity 不是一句 slogan 就能穩定重建,也不是隨便從長文件抽幾段就夠;結構完整、語意連貫的 identity specification 本身可能就是 agent 穩定性的必要條件之一。
對 agent engineering 有什麼意思?
如果把這篇放回 agent systems 的現場,它最有價值的地方在於:它替「為什麼 persistent agents 需要 identity document」這件事補上了表示層證據。
很多人做 agent 時,會把 persona、memory、rules、preferences、working style 全塞進 system prompt,然後祈禱模型每輪都還記得自己是誰。但這篇 paper 提醒你,真正關鍵的也許不是 prompt 長不長,而是你是否提供了一份語意上內聚、功能上完整、能把 agent 帶進穩定 operational region 的 identity core。
這跟幾個近期主線其實可以接得很緊:
- runtime governance 關心的是 agent 執行中怎麼不偏航
- durable state / memory 關心的是 session 斷裂後怎麼續跑
- identity attractor 關心的則是:續跑時,到底有沒有回到「同一個 agent」
換句話說,這篇不是直接在談安全,但它其實碰到了agent consistency 這條更底層的基礎問題。因為當 agent identity 本身不穩,後面所有 policy、memory、handoff、accountability 都會跟著鬆掉。
從安全角度看,這篇 paper 也有一條很值得延伸的線
雖然論文本身不是 security paper,但如果你用 agentic security 的角度去看,它其實在暗示另一件事:如果 identity documents 確實能把模型推進某個穩定 region,那攻擊者能不能反過來把 agent 從這個 region 拉出去?
這會直接連到幾個很實際的安全問題:
- prompt injection 是否可以逐步把 agent 從原本 identity attractor 推離
- memory poisoning 是否可能讓 identity document 的後續補充內容變成漂移源
- handoff / session resume 時,identity reconstruction 失敗是否會造成 policy enforcement 弱化
- 不同 identity documents 之間的幾何距離,是否能拿來衡量 agent drift 或 impersonation risk
這些問題論文還沒回答,但它至少提供了一個很好的起點:把「agent 還是不是原本那個 agent」從主觀感受,變成可觀測的 representation 問題。
這篇論文的限制也很清楚
當然,這篇 paper 也不是沒有侷限。
- 它測的是 representation geometry,不是長期真實任務表現
- identity 文件來自特定 persistent-agent setup,外部可遷移性還需要更多案例
- mean pooling 的做法雖然在實驗裡有效,但和 token-level dynamics 仍不是同一件事
- 它證明的是 attractor-like geometry,不是嚴格意義下的 dynamical fixed-point proof
所以你不能直接把這篇讀成「persistent identity 已被完全科學證明」。更準確地說,它提供的是一組相當強的表示層跡象:agent identity documents 確實可能在 activation space 裡形成穩定聚類,而且這種聚類主要受語意而非格式驅動。
我的看法
我覺得這篇最有意思的地方,在於它讓 persistent agent 這個常被說得有點玄的概念,第一次變得比較像工程問題,而不是文風問題。
過去很多人談「同一個 agent 持續存在」時,很容易滑向一種敘事幻覺:只要語氣像、名字一樣、記憶有接上,就好像是同一個 entity。但這篇 paper 提醒的是,如果 identity 真有其事,它應該在模型內部表徵上留下幾何痕跡。 而作者目前拿到的證據,至少說明這個方向不是空想。
對 AI agent 的實作來說,這篇最值得記住的一句話大概是:穩定的 agent identity,可能不是 prompt style 的副產品,而是一份語意完整 identity core 所誘發的 representational basin。
如果這條線後面繼續做下去,它可能不只影響 persistent assistants,還會影響 agent handoff、session continuity、runtime drift detection、memory integrity,甚至未來的 identity-level security controls。對今天這個越來越長鏈、越來越會續跑的 agent 世界來說,這不是小事。
