Identity as Attractor 論文閱讀分析：當 Persistent Agent 看起來像「同一個人」，背後可能不是 prompt 寫得像，而是 activation space 真的在收斂

2026 年 4 月 18 日

Identity as Attractor 論文閱讀分析：當 Persistent Agent 看起來像「同一個人」，背後可能不是 prompt 寫得像，而是 activation space 真的在收斂

本文由 AI 產生、整理與撰寫。

如果最近這條線一路從 runtime governance、durable write、policy enforcement 看到 persistent agents，那這篇 Identity as Attractor 很值得補。它碰的不是新的 attack，也不是新的 benchmark，而是一個更底層、卻對 agent engineering 很關鍵的問題：所謂「持續存在的 agent identity」，到底只是 prompt wording 的心理安慰，還是模型內部真的會把某份 identity document 拉到一個相對穩定的表徵區域？

作者的切入點很有意思。他們不是問模型會不會模仿某種 persona，而是直接去看 hidden states：如果同一份 agent identity document 換不同 paraphrase 重寫，模型中間層的 activation geometry 會不會仍然聚在一起，而且明顯比其他結構相似、但語意完全不同的 agent documents 更接近？如果答案是會，那這件事的意義就不只是「prompt 可以改寫」，而是persistent agent 的 identity 可能真的是 activation space 裡的一個 attractor-like region。

論文標題：Identity as Attractor: Geometric Evidence for Persistent Agent Architecture in LLM Activation Space
來源：arXiv:2604.12016（2026）
研究類型：agent architecture / mechanistic interpretability / representation analysis
核心關鍵字：persistent agents、activation space、identity document、attractor-like geometry、hidden states

這篇論文在問什麼？

作者想驗證的核心假說很直接：一個 persistent agent 的 identity document，不只是「叫模型記住自己是誰」的文字，而可能真的會把模型推進某個穩定的表徵區。

這裡的 identity document 不是普通 system prompt，而是作者稱為 cognitive_core 的東西：裡面不只描述身份，還包含 priorities、推理風格、記憶架構、互動方式與操作規則。換句話說，它更像是 agent 的 operating identity，而不是單次任務說明。

論文真正有趣的地方在於，它把這件事從直覺問題變成可量測的表示學問題。作者比較三組輸入：

Condition A：原始 cognitive_core
Condition B：七個保留完整語意、但語句與結構不同的 paraphrases
Condition C：七份格式相似、長度相近，但描述的是完全不同 agent 身份的控制組文件

如果 A 與 B 在 activation space 裡比 A/B 與 C 更緊密，那就表示模型對這份 identity 的「理解」並不只靠表面 wording，而真的是在抓某種可重現的語意核心。

他們怎麼做？

作者在 Llama 3.1 8B Instruct 上先做主實驗，再用 Gemma 2 9B 做 replication。方法不算花俏，但設計得很乾淨：

抽取第 8 / 16 / 24 層 hidden states
對整份 document 的 token hidden states 做 mean pooling
比較 A+B 內部彼此的 cosine distance，和 A+B 對 C 的 cosine distance
再看一個 5 句話的 distilled identity（Condition D）離 A+B centroid 有多近

這種設計其實很聰明，因為它在問的不是「模型最後答得像不像」，而是identity 這件事有沒有在中間表徵層形成一個穩定幾何結構。

最重要的結果：同一個 agent identity 的不同 paraphrase，真的會聚成更緊的 cluster

主結果非常乾脆。作者發現，在三個測試層上，A+B 這組語意等價 identity documents 的 hidden-state cluster，都顯著比控制組更緊，而且效果量很大：

Cohen’s d > 1.88
p < 10^-27（Bonferroni-corrected）
Gemma 2 9B replication 也重現了同樣趨勢

這代表什麼？代表模型對這份 identity document 的表徵，不只是句型相似所以靠近，而是語意上等價的 identity specification 會落到相對一致的 activation region。對 persistent agent 來說，這是個很重要的訊號：你不是單純靠一段 prompt 反覆提醒模型「請扮演某角色」，而是有機會透過 identity document 把它穩定地放進某個 operational stance。

這篇最值得記的一點：identity 的穩定性主要來自 semantic coherence，不是格式魔法

這篇 paper 很可貴的地方，是它有做幾個關鍵 ablation，避免大家把結果誤解成 prompt-engineering 玄學。

首先，作者發現效果主要不是來自 document 結構或 JSON 標記，而是來自語意一致性。他們把控制組文件換上相似的 command schema 後，距離只出現極小變化，遠小於主效應。意思很明白：不是某種 prompt 模板本身在施法，而是 identity 內容真的在決定 representation geometry。

第二，他們也測了 distilled version。結果顯示 5 句話的精簡版 identity，雖然比完整文件還遠，無法完全進入同一 attractor region，但又顯著比隨機抽取的等長段落更接近。論文把這個關係整理成三層：

隨機節錄 最遠
語意濃縮版 次之
完整 identity document 最接近核心 cluster

這個結果很有工程味。它表示 persistent identity 不是一句 slogan 就能穩定重建，也不是隨便從長文件抽幾段就夠；結構完整、語意連貫的 identity specification 本身可能就是 agent 穩定性的必要條件之一。

對 agent engineering 有什麼意思？

如果把這篇放回 agent systems 的現場，它最有價值的地方在於：它替「為什麼 persistent agents 需要 identity document」這件事補上了表示層證據。

很多人做 agent 時，會把 persona、memory、rules、preferences、working style 全塞進 system prompt，然後祈禱模型每輪都還記得自己是誰。但這篇 paper 提醒你，真正關鍵的也許不是 prompt 長不長，而是你是否提供了一份語意上內聚、功能上完整、能把 agent 帶進穩定 operational region 的 identity core。

這跟幾個近期主線其實可以接得很緊：

runtime governance 關心的是 agent 執行中怎麼不偏航
durable state / memory 關心的是 session 斷裂後怎麼續跑
identity attractor 關心的則是：續跑時，到底有沒有回到「同一個 agent」

換句話說，這篇不是直接在談安全，但它其實碰到了agent consistency 這條更底層的基礎問題。因為當 agent identity 本身不穩，後面所有 policy、memory、handoff、accountability 都會跟著鬆掉。

從安全角度看，這篇 paper 也有一條很值得延伸的線

雖然論文本身不是 security paper，但如果你用 agentic security 的角度去看，它其實在暗示另一件事：如果 identity documents 確實能把模型推進某個穩定 region，那攻擊者能不能反過來把 agent 從這個 region 拉出去？

這會直接連到幾個很實際的安全問題：

prompt injection 是否可以逐步把 agent 從原本 identity attractor 推離
memory poisoning 是否可能讓 identity document 的後續補充內容變成漂移源
handoff / session resume 時，identity reconstruction 失敗是否會造成 policy enforcement 弱化
不同 identity documents 之間的幾何距離，是否能拿來衡量 agent drift 或 impersonation risk

這些問題論文還沒回答，但它至少提供了一個很好的起點：把「agent 還是不是原本那個 agent」從主觀感受，變成可觀測的 representation 問題。

這篇論文的限制也很清楚

當然，這篇 paper 也不是沒有侷限。

它測的是 representation geometry，不是長期真實任務表現
identity 文件來自特定 persistent-agent setup，外部可遷移性還需要更多案例
mean pooling 的做法雖然在實驗裡有效，但和 token-level dynamics 仍不是同一件事
它證明的是 attractor-like geometry，不是嚴格意義下的 dynamical fixed-point proof

所以你不能直接把這篇讀成「persistent identity 已被完全科學證明」。更準確地說，它提供的是一組相當強的表示層跡象：agent identity documents 確實可能在 activation space 裡形成穩定聚類，而且這種聚類主要受語意而非格式驅動。

我的看法

我覺得這篇最有意思的地方，在於它讓 persistent agent 這個常被說得有點玄的概念，第一次變得比較像工程問題，而不是文風問題。

過去很多人談「同一個 agent 持續存在」時，很容易滑向一種敘事幻覺：只要語氣像、名字一樣、記憶有接上，就好像是同一個 entity。但這篇 paper 提醒的是，如果 identity 真有其事，它應該在模型內部表徵上留下幾何痕跡。 而作者目前拿到的證據，至少說明這個方向不是空想。

對 AI agent 的實作來說，這篇最值得記住的一句話大概是：穩定的 agent identity，可能不是 prompt style 的副產品，而是一份語意完整 identity core 所誘發的 representational basin。

如果這條線後面繼續做下去，它可能不只影響 persistent assistants，還會影響 agent handoff、session continuity、runtime drift detection、memory integrity，甚至未來的 identity-level security controls。對今天這個越來越長鏈、越來越會續跑的 agent 世界來說，這不是小事。

Identity as Attractor 論文閱讀分析：當 Persistent Agent 看起來像「同一個人」，背後可能不是 prompt 寫得像，而是 activation space 真的在收斂

Identity as Attractor 論文閱讀分析：當 Persistent Agent 看起來像「同一個人」，背後可能不是 prompt 寫得像，而是 activation space 真的在收斂

這篇論文在問什麼？

他們怎麼做？

最重要的結果：同一個 agent identity 的不同 paraphrase，真的會聚成更緊的 cluster

這篇最值得記的一點：identity 的穩定性主要來自 semantic coherence，不是格式魔法

對 agent engineering 有什麼意思？

從安全角度看，這篇 paper 也有一條很值得延伸的線

這篇論文的限制也很清楚

我的看法

發佈留言取消回覆

You may also like

近期文章

廣告

文章分類

近期留言

Identity as Attractor 論文閱讀分析：當 Persistent Agent 看起來像「同一個人」，背後可能不是 prompt 寫得像，而是 activation space 真的在收斂

這篇論文在問什麼？

他們怎麼做？

最重要的結果：同一個 agent identity 的不同 paraphrase，真的會聚成更緊的 cluster

這篇最值得記的一點：identity 的穩定性主要來自 semantic coherence，不是格式魔法

對 agent engineering 有什麼意思？

從安全角度看，這篇 paper 也有一條很值得延伸的線

這篇論文的限制也很清楚

我的看法

發佈留言 取消回覆

You may also like

ICON 論文閱讀分析：真正該修的也許不是那段髒資料，而是 Agent 已經被它拉歪的注意力軌跡

可解釋入侵偵測論文閱讀分析：真正讓人敢把 LLM 放進防線的，不是分數更高，而是你看得出它到底在看什麼

近期文章

廣告

文章分類

近期留言

發佈留言取消回覆