MemPalace：Milla Jovovich 用 2,500 年前嘅記憶宮殿，點樣令 LLM 由「失憶」變成「終身記得你」？

「你同 AI agent 傾咗三個鐘，將個 project architecture、coding preference、deployment constraint 全部解釋過一次。第二朝開新 session，佢完全唔記得你係邊個。」呢個唔係 bug，係 LLM 嘅本質——stateless by design。

2026 年 4 月 5 日，Milla Jovovich（係，Resident Evil 嗰位）同開發者 Ben Sigman 喺 GitHub 開源咗一個叫 MemPalace 嘅 AI memory 系統。兩星期內攞到 47,000+ stars，X 上單條 launch tweet 1.5M views。佢嘅 idea 簡單到誇張——將 2,500 年前古希臘人記長篇演講嘅技巧（method of loci，記憶宮殿）搬入 LLM agent。

更癲嘅係：佢喺 LongMemEval 攞到 96.6% Recall@5（hybrid mode 加 Haiku rerank 仲做到 100%），而且 zero API call、純本地運行，淨係用 ChromaDB + PyYAML + SQLite。

但 hype 散咗之後，社群同學界嘅 critical analysis 又有另一個故事：raw mode 跑得仲快過 palace structure，AAAK compression 反而 regress 12.4 個百分點……今篇 blog 我會由 method of loci 講起，由淺入深拆 MemPalace 嘅 4-layer 架構、AAAK shorthand、PALACE_PROTOCOL、Knowledge Graph，再客觀講吓邊啲位係真 innovation、邊啲位其實係 ChromaDB 喺度做嘢。

TL;DR
背景：乜嘢係 Method of Loci？
LLM 失憶問題嘅兩條死路
MemPalace 整體架構
4-Layer Memory Stack：點樣只用 170 tokens 喚醒成個宮殿
AAAK Compression：30× 壓縮 shorthand
PALACE_PROTOCOL：Prompt Engineering 嘅暗手
Knowledge Graph：Temporal 三元組
Specialist Agents 同 Diary 系統
Benchmark 拆解：96.6% 究竟係邊個嘅功勞？
同其他 Memory 系統比較
Setup 同實際使用
批判性 takeaways
相關資源

TL;DR

核心重點：

🏛️ Method of Loci 入侵 AI：MemPalace 將「Wings → Rooms → Halls → Closets → Drawers」嘅空間 metaphor 變成 ChromaDB 嘅 metadata filter，配 SQLite 做 knowledge graph，整個系統得 2 個 runtime dependency（chromadb + pyyaml）。
⚡ 170 tokens wake-up cost：4-layer memory stack（L0 manifest → L1 wing index → L2 room → L3 drawer），唔需要將成份 memory load 入 prompt，搵到先 expand。
🎯 96.6% LongMemEval R@5：raw verbatim mode + ChromaDB default embedding（all-MiniLM-L6-v2）做出嚟，完全冇用 palace structure——呢個係 critique 嘅核心。
🔧 29 個 MCP tools + PALACE_PROTOCOL：直接同 Claude Code、Cursor、ChatGPT、Gemini 接駁，prompt injection 教 LLM「答之前先 search」，behavioral 而非 algorithmic 嘅優化。
⚠️ 誠實面：palace structure 開咗反而 -7.2pp，AAAK 開咗 -12.4pp。Mem0 v2 用 token-efficient extraction 已經追到 93.4%，Supermemory ASMR 用 multi-agent rerank 攞 99%。MemPalace 嘅唯一護城河係 zero-cost、offline、deterministic。
💡 真正啟示：將 prompt engineering（PALACE_PROTOCOL）、低 wake-up cost、per-agent diary 三件事整合做一個 ergonomic 嘅 daily-driver memory，遠比個別 component 重要。

背景：乜嘢係 Method of Loci？{#method-of-loci}

古希臘詩人 Simonides of Ceos（公元前 6 世紀）有一日去咗個 banquet 表演，行開咗一陣，個 hall 就塌咗壓死晒所有人，遺體完全認唔出。Simonides 閉上眼，憑記憶「行返」入個 hall，靠位置逐個 identify 受害者。呢個就係 method of loci 嘅起源。

點樣運作？

心入面起一個你好熟悉嘅建築（例如屋企、學校）。
將你想記嘅嘢，用視覺化方式擺入唔同房間。
要回憶嘅時候，mental walk through 個建築，逐個房間「睇」返啲嘢。

例如要記 grocery list：

🥛 Milk 浸晒個玄關
🥚 Eggs 坐喺梳化
🍞 Bread 擺喺廚房 counter

呢套技巧由古羅馬延續到中世紀僧侶背聖經，到今日 World Memory Champions 用嚟記 70,000 個 π 嘅小數位。Hannibal Lecter 同 Sherlock Holmes 嗰個 mind palace 都係呢個概念。

🎯 核心 insight
人腦對 spatial relationship 嘅記憶遠強過 flat list。將「資訊」轉成「位置 + 圖像」，retrieval 由 sequential search 變成 navigation。MemPalace 將呢個 metaphor 直接搬入 vector DB 嘅 metadata schema。

LLM 失憶問題嘅兩條死路 {#llm-amnesia}

業界處理「AI 點樣記得返之前傾過嘅嘢」呢個問題，過去三年主要兩條路：

路徑 A：暴力擴大 context window

Gemini 1.5 Pro 直接擺 1M、2M、10M tokens 入 prompt，DeepSeek-V4：1.6T MoE × 1M context × Hybrid Attention，DeepSeek 點樣將 long-context inference 砍到 V3.2 嘅 27% FLOPs / 10% KV cache？都做到 1M。但有兩個死症：

「Lost in the Middle」：研究 consistent 顯示 LLM 對 prompt 中段嘅資訊 retrieval 顯著差過頭尾兩端。塞 1M tokens ≠ 用到 1M tokens。
成本爆炸：每次都重新讀晒 6 個月對話，input tokens 線性 scale。

路徑 B：RAG + Vector DB

將對話 chunk + embed，retrieval 嗰陣 nearest neighbor。Mem0、Zep、Letta、Hindsight 全部呢條路。問題係：

大部份系統會 summarize / extract 入 memory（慳 storage），但 extraction 一定會 lose information。
Flat semantic search 喺 corpus 大到一個 size 之後，top-k 結果會 dilute。

MemPalace 嘅第三條路：「Verbatim + Spatial Filter」

策略	Big Context	RAG (Mem0/Zep)	MemPalace
儲存方式	原文塞 prompt	Extract / summarize	Verbatim • 結構化 metadata
Retrieval	Lost in middle	Semantic top-k	Wing/Room filter + semantic top-k
Inference cost	每次 1M tokens	Write 時 LLM call	Zero LLM call（read & write）
Information loss	None（但讀唔到）	⚠️ Extraction loss	✅ 零 loss（verbatim）
Wake-up cost	1M tokens	2k–5k tokens	~170 tokens

核心 trade-off：MemPalace 用 更多本地 disk 空間（verbatim 唔壓縮），換零 inference cost 同零 information loss。

MemPalace 整體架構 {#architecture}

Loading diagram...

物理層：得兩個 dependency

bashpip install mempalace
# 拉 chromadb + pyyaml,完。

ChromaDB：向量資料庫，default embedding 用 all-MiniLM-L6-v2（384-dim、開源、CPU 行得郁）。
SQLite：knowledge graph 同 diary metadata。
YAML files：人類可讀嘅 palace 結構定義。

冇 Redis、冇 Postgres、冇 cloud API、冇 GPU 要求。一個 ~/.mempalace 目錄搞掂。

邏輯層：六層空間 metaphor

Layer	比喻	實質	例子
Wing	翼	Top-level domain / agent	`code`, `personal`, `research`
Room	房	Project / topic	`code/myapp`, `personal/health`
Hall	走廊	Memory type corridor	`decisions`, `bugs`, `preferences`
Closet	櫃	Sub-category	`auth-system`, `db-schema`
Drawer	抽屜	單一 conversation chunk	原文 verbatim
Tunnel	隧道	Cross-wing reference	Code 連去 Personal

關鍵實作真相：呢啲 layer 喺底層只係 ChromaDB 嘅 metadata field。Search 嗰陣 build_where_filter() 將 wing="code" AND room="myapp" 變成 ChromaDB where clause。

python# 簡化版概念
results = collection.query(
    query_texts=["how did I configure auth?"],
    n_results=5,
    where={"wing": "code", "room": "myapp"}  # palace filter
)

⚠️ Reality check
Independent code analysis（lhl/agentic-memory、Vectorize.io、arXiv 2604.21284）一致指出：palace hierarchy 喺實作上等同 standard metadata filtering，每個 mainstream vector DB（Pinecone、Weaviate、Qdrant）都有。「+34% palace boost」嘅 claim 係 narrowing search space 嘅效果，唔係空間 metaphor 本身嘅魔法。

4-Layer Memory Stack：點樣只用 170 tokens 喚醒成個宮殿 {#memory-stack}

如果 wake-up 嗰陣將成個 palace 嘅 index 都讀入 prompt，幾千 token 起跳，根本冇得玩。MemPalace 用 lazy expansion 解決：

Loading diagram...

L0 — Status Manifest（永遠 load）

Claude Code 一開新 session，MCP 自動 inject ~170 tokens：

yamlPALACE_PROTOCOL: "Search before claiming ignorance."
Wings:
  - code (4 rooms, 127 drawers)
  - personal (2 rooms, 34 drawers)
  - research (3 rooms, 89 drawers)
Last accessed: 2026-04-27 myapp/auth-system

LLM 一見到呢個 manifest 就知有乜資源。問問題嗰陣會 trigger mempalace_search。

L1–L3 — On-Demand Expansion

根據 query 動態 fetch 對應層嘅 detail。呢個 deferral 係 wake-up cost 由 2k–5k（其他 RAG 系統）跌到 170 tokens 嘅關鍵。

💡 設計啟示
Memory system 唔係 storage problem，係 attention budget problem。LLM 嘅 effective context 始終有限，將「成個 memory」放入 prompt 會 dilute attention。MemPalace 嘅 lazy expansion 等於 OS 嘅 demand paging——只 fault 你需要嘅頁。

AAAK Compression：30× 壓縮 shorthand {#aaak}

AAAK（Artificial Abbreviated Agent Kompression，名係 marketing-driven，唔好深究）係 MemPalace 提出嘅一套 LLM-readable shorthand。例如：

javascript原文：
User: I'd like to add JWT-based authentication to my app.
The app uses Express on Node.js and stores users in PostgreSQL.
Session should expire after 24 hours.

AAAK：
U>JWT-auth, Express/Node, PG-users, sess=24h

聲稱「30× lossless」，喺 README 一度被狠批，後來作者自己 walk back。

Honest 數字（v3.1.0 之後 BENCHMARKS.md）

Mode	LongMemEval R@5	Delta vs Raw
Raw verbatim	96.6%	baseline
Rooms enabled	89.4%	−7.2 pp ⚠️
AAAK compressed	84.2%	−12.4 pp ⚠️

即係：AAAK 開咗，benchmark 反而跌。原因？compression 改變咗原文 surface form，而 ChromaDB 嘅 default embedding 對 surface lexical overlap 敏感。Compression artifact 直接掉 retrieval recall。

⚠️ Takeaway
AAAK 嘅實際價值唔係 retrieval boost，而係 後續 LLM read 時嘅 token 慳省。如果你想餵 50 條 drawer 入 GPT-4 做 reasoning，AAAK 可以將 prompt 由 30k tokens 縮到 ~1k。但呢個係 downstream 用法問題，唔係 retrieval problem。

PALACE_PROTOCOL：Prompt Engineering 嘅暗手 {#palace-protocol}

呢個我覺得係 MemPalace 真正 underappreciated 嘅 innovation。

MCP server 嘅 mempalace_status tool output 入面 hard-code 咗一段 directive：

javascriptPALACE_PROTOCOL:
  Before answering any question about people, projects,
  preferences, or past decisions:
  1. Call mempalace_search with relevant keywords.
  2. If results return matches, cite them.
  3. Only claim ignorance after a search returns empty.
  4. After session ends, write a diary entry.

LLM 每次見到 status 都會讀到呢段。Behavioral effect：claude / GPT 會由「直接靠 weight 答」變成「先 search 再答」。

點解 work？

LLM 對 system-level instruction 嘅 compliance rate 高。
PALACE_PROTOCOL 將「retrieval-augmented behavior」由 application-side（要寫 prompt template）推到 memory-side（系統自己注入）。
等於將 RAG 嘅 "please search before answering" 變成 enforce-able policy。

Loading diagram...

💡 Insight
呢個係 algorithmic vs behavioral 嘅分野。MemPalace 真正勝出嘅地方唔係搜得幾準，而係令 LLM 記得去搜。RAG 系統最大 failure mode 係 model 自信咁亂噏（hallucinate），PALACE_PROTOCOL 直接 attack 呢個 failure mode。

Knowledge Graph：Temporal 三元組 {#knowledge-graph}

MemPalace 入面有第二個 retrieval 通道：knowledge graph，存 SQLite。

Schema：

sqlCREATE TABLE triples (
    id INTEGER PRIMARY KEY,
    subject TEXT,
    predicate TEXT,
    object TEXT,
    valid_from TIMESTAMP,
    valid_to TIMESTAMP,  -- NULL = currently valid
    source_drawer_id TEXT
);

例：

javascript("billy", "prefers", "FastAPI", 2026-01-15, NULL)
("myapp", "uses", "PostgreSQL", 2026-02-10, 2026-04-01)
("myapp", "uses", "SQLite", 2026-04-01, NULL)

第三條 triple invalidate 第二條（valid_to set），實作 temporal validity window——對 "my preference changed" 呢類 query 好有用。

點 query？

python# MCP tool: kg_query
results = kg.query(
    subject="myapp",
    predicate="uses",
    at_time="2026-03-15"  # point-in-time
)
# => [("myapp", "uses", "PostgreSQL", ...)]

Reality check

Independent analysis 揭發：

❌ README claim「automatic contradiction detection」——實際 codebase knowledge_graph.py 冇任何 "contradict" 字眼，淨係 identical-triple dedup。
❌ "Multi-hop graph traversal"——實際係 flat triple lookup，冇 traversal。
❌ "Entity resolution"——naive slug conversion（"Alice O'Brien" → "alice_obrien"）。

但 temporal validity window 係真嘅，而且呢個 feature 喺 Mem0 同 Zep 都有，唔係 MemPalace 獨家。

Specialist Agents 同 Diary 系統 {#agents-diary}

MemPalace 容許每個 agent 開自己嘅 wing + diary：

yaml# ~/.mempalace/agents/architect.yaml
name: architect
wing: code/architecture
role: "System design and tradeoff analysis"
diary_path: ~/.mempalace/diaries/architect.md
last_session: 2026-04-27

每次 session 完，agent 會 append 一段 markdown 入 diary：

markdown## 2026-04-27 Session
- Discussed JWT vs session cookies for myapp
- User preferred JWT due to mobile client requirement
- Open question: refresh token rotation strategy
- Next session: explore HttpOnly + secure flags

下次 boot up，agent 自動讀返自己嘅 diary。對 multi-agent system（例如 architect + coder + reviewer）特別有用——每個專家保留自己嘅 thread of thought，唔會被其他 agent 嘅 noise 污染。

Loading diagram...

🎯 Pattern
呢個其實同由 Prompt Engineering 到 Context Engineering 到 Harness Engineering：AI 工程三部曲嘅進化史嗰篇講嘅 agent harness engineering 同一條 axis——將 agent state externalize 出 prompt 外，prompt 永遠 stateless，state 永遠 retrievable。

Benchmark 拆解：96.6% 究竟係邊個嘅功勞？{#benchmarks}

呢個係 MemPalace 故事最 controversial 嘅部份。

LongMemEval 簡介

ICLR 2025 嘅 long-term memory benchmark，500 條 question，5 個 category：

Information Extraction（IE）
Multi-Session Reasoning（MSR）
Temporal Reasoning（TR）
Knowledge Updates（KU）
Abstention（識唔識答「我唔知」）

Metric: Recall@5 — 正確 session 有冇喺 top-5 retrieved results。

MemPalace 嘅三幕劇

Launch tweet（4 月 5 日）：「100% on LongMemEval. 500/500. 」1.5M views.
Community audit（4 月 7–11 日）：GitHub Issue #29 揭發評估方法論問題：用 top_k=50 instead of standard top-5；用 LLM judge 而非 ground truth 比對。
v3.1.0 walk-back：README 改成 "96.6% R@5 raw mode"，承認社群「caught real problems within hours」。

Independent reproduction 結果（M2 Ultra, Issue #39）

Configuration	LongMemEval-S R@5	API cost
Raw verbatim (ChromaDB only)	96.6%	$0
• Rooms metadata filter	89.4%	$0
• AAAK compression	84.2%	$0
• Haiku reranker (hybrid)	100%	~$0.02 / query

真相

Loading diagram...

MemPalace 喺 raw mode 嘅 96.6% 等同**「ChromaDB + all-MiniLM-L6-v2 + verbatim storage」**嘅 baseline。Spatial metaphor 對呢個 score 嘅貢獻接近零。

⚠️ 但係……
呢個 critique 雖然有效，唔代表 MemPalace 冇用。佢嘅 system-level value——MCP integration、wake-up cost、PALACE_PROTOCOL、diary、temporal KG——係 ChromaDB alone 冇嘅。LongMemEval 只係 measure 一個維度（retrieval recall），唔 measure ergonomics、token efficiency、multi-agent coordination。

同其他 Memory 系統比較 {#comparison}

System	LongMemEval R@5	Local-only	LLM @ write	Wake-up	強項
MemPalace v3	96.6% raw / 100% hybrid	✅	❌	~170	Zero-cost, MCP, diary
Mem0 v2 (token-eff.)	93.4%	⚠️ optional	✅ extraction	~2k	Multi-signal retrieval
Zep	~85%	❌ cloud	✅	~3k	Temporal KG, mature
Supermemory ASMR	99%	❌	✅ multi-agent	~5k	SOTA accuracy
Letta (MemGPT)	~80%	✅	✅ block summary	~1k	OS-style hierarchy
Hindsight	未公開	✅	✅	~2k	Linux-style file ops

揀邊個？

用 MemPalace 如果：

你想 zero ongoing cost（自己跑、自己 host）。
你係 daily Claude Code / Cursor user，想 ergonomic MCP setup。
你接受 verbatim storage 食硬碟（每 1M tokens ~5MB）。
你想要 deterministic、auditable 嘅 memory（每條 retrieval 有 source drawer）。

用 Mem0 / Zep 如果：

你需要 production SLA、cloud sync、team sharing。
你 OK 俾 LLM call 喺 write path（accuracy 通常更穩定）。
你需要 embedding quality 高啲（OpenAI text-embedding-3-large 級數）。

用 Supermemory ASMR 如果：

你只care accuracy，唔 care cost / latency。
你跑 enterprise search、需要 99% retrieval。

Setup 同實際使用 {#setup}

Step 1: Install

bashpip install mempalace
mempalace --version  # 應該係 3.0.0+

# Initialize palace 喺特定 project
cd ~/projects/myapp
mempalace init .

呢個會起 ~/.mempalace/ 同 ./.mempalace/ 兩個目錄。

Step 2: Mine 過往對話（optional）

如果你之前用 Claude Code、ChatGPT、Cursor，可以將 transcript export 出嚟 mine：

bashmempalace mine ~/Downloads/claude-export.json \
    --wing code \
    --room myapp \
    --split-sessions  # 拆 mega-transcript

佢會自動 chunk、embed、塞入對應 wing/room。

Step 3: 接 MCP

Claude Code（最簡單）：

json// ~/.config/claude-code/mcp_servers.json
{
  "mempalace": {
    "command": "mempalace",
    "args": ["mcp"]
  }
}

Cursor / Gemini CLI： 一樣 syntax，配返自己 config 路徑。

Auto-save hook（Claude Code 限定）：

bashmempalace install-hooks claude-code \
    --save-every 10 \
    --pre-compaction-save

每 10 條 message auto-save 一次，pre-compaction emergency save 防止 context window 滿之前 lose conversation。

Step 4: 第一次用

Claude Code 開新 session：

javascript用戶：「我之前個 myapp project 用咩 database？」

Claude（auto trigger MCP）：
  → mempalace_status (load ~170 token manifest)
  → mempalace_search(query="myapp database", wing="code")
  → 3 drawers returned

Claude：
  「根據你 2026-04-01 嘅對話,你由 PostgreSQL 換咗去
   SQLite,原因係要 simplify deployment。Refresh token
   table schema 係...」

Quick CLI 操作

bash# 睇有咩 wings
mempalace ls

# 直接搜
mempalace search "auth setup"

# Knowledge graph query
mempalace kg query --subject myapp --at 2026-03-15

# Agent diary tail
mempalace diary architect --last 5

批判性 takeaways {#takeaways}

寫到呢度，我覺得 MemPalace 嘅故事其實係 2026 年 open-source AI 嘅一個 microcosm：

✅ 真正嘅 contribution

Wake-up cost engineering：170 tokens 嘅 manifest 係 published 數字入面最低嘅。Lazy-expansion architecture 值得抄。
PALACE_PROTOCOL prompt injection：將 retrieval-augmented behavior 由 app-side 推到 system-side，behavioral 而非 algorithmic 嘅 win。
Per-agent diary：multi-agent thread-of-thought preservation。Implementation 簡單，但 ergonomic value 大。
MCP-first design：唔係 "加埋" MCP，而係由 day 1 圍繞 MCP 設計 tool surface。29 個 tool 對應 read / write / KG / diary / system 五大類，分得乾淨。
Two-dependency footprint：證明 "useful" memory system 唔需要 Postgres + Redis + cloud。對 indie hacker 同 privacy-conscious 用家係真正 unblock。

❌ 過份吹噓嘅部份

"+34% palace boost"：Independent benchmark 顯示 palace 開咗反而 regress。
"30× lossless AAAK"：實際 retrieval 跌 12.4pp；只係 downstream LLM-read 慳 token。
"Contradiction detection"：codebase 唔存在。
"100% LongMemEval"：要 paid reranker 先做到，唔係 zero-cost。
"Multi-hop KG traversal"：係 flat lookup。

💡 對工程師嘅 lesson

Loading diagram...

MemPalace 4 日內 walk back 嘅速度其實係正面 signal——好多 academic 同 startup 揀靜雞雞改 paper / spec，唔講。對 OSS ecosystem 嚟講，社群審計 + 作者 acknowledge 嘅 cycle 比個別 score 重要。

🎯 我嘅實際使用建議

如果你係 daily Claude Code / Cursor user，MemPalace 值得試，因為：

Setup 兩分鐘。
Cost = $0。
Lock-in = 零（全部係本地 SQLite + ChromaDB + YAML，可以隨時 export）。
最差情況都係 baseline ChromaDB 表現，已經唔錯。

唔好開 AAAK / palace 進階 feature——直接食 raw mode，反而 score 更高。

如果你係 building production AI app 嘅 team，去 Mem0 v2 / Zep / Supermemory，benchmark 同 SLA 比較 trustable。

💡 最後 takeaway
MemPalace 嘅真正歷史意義唔係「邊個 score 高啲」，而係 proved that 一個 22 歲女演員加一個 indie developer，用 Claude Code + ChromaDB + 一個古希臘 metaphor，都可以做出比 well-funded startup 更 ergonomic 嘅 daily-driver memory。

Vibe coding works. 有時候系統設計嘅勝負，唔係 algorithm benchmark，而係 frictionless ergonomics。

TL;DR

核心重點：

🏛️ Method of Loci 入侵 AI：MemPalace 將「Wings → Rooms → Halls → Closets → Drawers」嘅空間 metaphor 變成 ChromaDB 嘅 metadata filter，配 SQLite 做 knowledge graph，整個系統得 2 個 runtime dependency（chromadb + pyyaml）。
⚡ 170 tokens wake-up cost：4-layer memory stack（L0 manifest → L1 wing index → L2 room → L3 drawer），唔需要將成份 memory load 入 prompt，搵到先 expand。
🎯 96.6% LongMemEval R@5：raw verbatim mode + ChromaDB default embedding（all-MiniLM-L6-v2）做出嚟，完全冇用 palace structure——呢個係 critique 嘅核心。
🔧 29 個 MCP tools + PALACE_PROTOCOL：直接同 Claude Code、Cursor、ChatGPT、Gemini 接駁，prompt injection 教 LLM「答之前先 search」，behavioral 而非 algorithmic 嘅優化。
⚠️ 誠實面：palace structure 開咗反而 -7.2pp，AAAK 開咗 -12.4pp。Mem0 v2 用 token-efficient extraction 已經追到 93.4%，Supermemory ASMR 用 multi-agent rerank 攞 99%。MemPalace 嘅唯一護城河係 zero-cost、offline、deterministic。
💡 真正啟示：將 prompt engineering（PALACE_PROTOCOL）、低 wake-up cost、per-agent diary 三件事整合做一個 ergonomic 嘅 daily-driver memory，遠比個別 component 重要。

背景：乜嘢係 Method of Loci？{#method-of-loci}

點樣運作？

心入面起一個你好熟悉嘅建築（例如屋企、學校）。
將你想記嘅嘢，用視覺化方式擺入唔同房間。
要回憶嘅時候，mental walk through 個建築，逐個房間「睇」返啲嘢。

例如要記 grocery list：

🥛 Milk 浸晒個玄關
🥚 Eggs 坐喺梳化
🍞 Bread 擺喺廚房 counter

🎯 核心 insight
人腦對 spatial relationship 嘅記憶遠強過 flat list。將「資訊」轉成「位置 + 圖像」，retrieval 由 sequential search 變成 navigation。MemPalace 將呢個 metaphor 直接搬入 vector DB 嘅 metadata schema。

LLM 失憶問題嘅兩條死路 {#llm-amnesia}

業界處理「AI 點樣記得返之前傾過嘅嘢」呢個問題，過去三年主要兩條路：

路徑 A：暴力擴大 context window

「Lost in the Middle」：研究 consistent 顯示 LLM 對 prompt 中段嘅資訊 retrieval 顯著差過頭尾兩端。塞 1M tokens ≠ 用到 1M tokens。
成本爆炸：每次都重新讀晒 6 個月對話，input tokens 線性 scale。

路徑 B：RAG + Vector DB

將對話 chunk + embed，retrieval 嗰陣 nearest neighbor。Mem0、Zep、Letta、Hindsight 全部呢條路。問題係：

大部份系統會 summarize / extract 入 memory（慳 storage），但 extraction 一定會 lose information。
Flat semantic search 喺 corpus 大到一個 size 之後，top-k 結果會 dilute。

MemPalace 嘅第三條路：「Verbatim + Spatial Filter」

策略	Big Context	RAG (Mem0/Zep)	MemPalace
儲存方式	原文塞 prompt	Extract / summarize	Verbatim • 結構化 metadata
Retrieval	Lost in middle	Semantic top-k	Wing/Room filter + semantic top-k
Inference cost	每次 1M tokens	Write 時 LLM call	Zero LLM call（read & write）
Information loss	None（但讀唔到）	⚠️ Extraction loss	✅ 零 loss（verbatim）
Wake-up cost	1M tokens	2k–5k tokens	~170 tokens

核心 trade-off：MemPalace 用 更多本地 disk 空間（verbatim 唔壓縮），換零 inference cost 同零 information loss。

MemPalace 整體架構 {#architecture}

Loading diagram...

物理層：得兩個 dependency

bashpip install mempalace
# 拉 chromadb + pyyaml,完。

ChromaDB：向量資料庫，default embedding 用 all-MiniLM-L6-v2（384-dim、開源、CPU 行得郁）。
SQLite：knowledge graph 同 diary metadata。
YAML files：人類可讀嘅 palace 結構定義。

冇 Redis、冇 Postgres、冇 cloud API、冇 GPU 要求。一個 ~/.mempalace 目錄搞掂。

邏輯層：六層空間 metaphor

Layer	比喻	實質	例子
Wing	翼	Top-level domain / agent	`code`, `personal`, `research`
Room	房	Project / topic	`code/myapp`, `personal/health`
Hall	走廊	Memory type corridor	`decisions`, `bugs`, `preferences`
Closet	櫃	Sub-category	`auth-system`, `db-schema`
Drawer	抽屜	單一 conversation chunk	原文 verbatim
Tunnel	隧道	Cross-wing reference	Code 連去 Personal

關鍵實作真相：呢啲 layer 喺底層只係 ChromaDB 嘅 metadata field。Search 嗰陣 build_where_filter() 將 wing="code" AND room="myapp" 變成 ChromaDB where clause。

python# 簡化版概念
results = collection.query(
    query_texts=["how did I configure auth?"],
    n_results=5,
    where={"wing": "code", "room": "myapp"}  # palace filter
)

⚠️ Reality check
Independent code analysis（lhl/agentic-memory、Vectorize.io、arXiv 2604.21284）一致指出：palace hierarchy 喺實作上等同 standard metadata filtering，每個 mainstream vector DB（Pinecone、Weaviate、Qdrant）都有。「+34% palace boost」嘅 claim 係 narrowing search space 嘅效果，唔係空間 metaphor 本身嘅魔法。

4-Layer Memory Stack：點樣只用 170 tokens 喚醒成個宮殿 {#memory-stack}

如果 wake-up 嗰陣將成個 palace 嘅 index 都讀入 prompt，幾千 token 起跳，根本冇得玩。MemPalace 用 lazy expansion 解決：

Loading diagram...

L0 — Status Manifest（永遠 load）

Claude Code 一開新 session，MCP 自動 inject ~170 tokens：

yamlPALACE_PROTOCOL: "Search before claiming ignorance."
Wings:
  - code (4 rooms, 127 drawers)
  - personal (2 rooms, 34 drawers)
  - research (3 rooms, 89 drawers)
Last accessed: 2026-04-27 myapp/auth-system

LLM 一見到呢個 manifest 就知有乜資源。問問題嗰陣會 trigger mempalace_search。

L1–L3 — On-Demand Expansion

根據 query 動態 fetch 對應層嘅 detail。呢個 deferral 係 wake-up cost 由 2k–5k（其他 RAG 系統）跌到 170 tokens 嘅關鍵。

💡 設計啟示
Memory system 唔係 storage problem，係 attention budget problem。LLM 嘅 effective context 始終有限，將「成個 memory」放入 prompt 會 dilute attention。MemPalace 嘅 lazy expansion 等於 OS 嘅 demand paging——只 fault 你需要嘅頁。

AAAK Compression：30× 壓縮 shorthand {#aaak}

AAAK（Artificial Abbreviated Agent Kompression，名係 marketing-driven，唔好深究）係 MemPalace 提出嘅一套 LLM-readable shorthand。例如：

javascript原文：
User: I'd like to add JWT-based authentication to my app.
The app uses Express on Node.js and stores users in PostgreSQL.
Session should expire after 24 hours.

AAAK：
U>JWT-auth, Express/Node, PG-users, sess=24h

聲稱「30× lossless」，喺 README 一度被狠批，後來作者自己 walk back。

Honest 數字（v3.1.0 之後 BENCHMARKS.md）

Mode	LongMemEval R@5	Delta vs Raw
Raw verbatim	96.6%	baseline
Rooms enabled	89.4%	−7.2 pp ⚠️
AAAK compressed	84.2%	−12.4 pp ⚠️

⚠️ Takeaway
AAAK 嘅實際價值唔係 retrieval boost，而係 後續 LLM read 時嘅 token 慳省。如果你想餵 50 條 drawer 入 GPT-4 做 reasoning，AAAK 可以將 prompt 由 30k tokens 縮到 ~1k。但呢個係 downstream 用法問題，唔係 retrieval problem。

PALACE_PROTOCOL：Prompt Engineering 嘅暗手 {#palace-protocol}

呢個我覺得係 MemPalace 真正 underappreciated 嘅 innovation。

MCP server 嘅 mempalace_status tool output 入面 hard-code 咗一段 directive：

javascriptPALACE_PROTOCOL:
  Before answering any question about people, projects,
  preferences, or past decisions:
  1. Call mempalace_search with relevant keywords.
  2. If results return matches, cite them.
  3. Only claim ignorance after a search returns empty.
  4. After session ends, write a diary entry.

LLM 每次見到 status 都會讀到呢段。Behavioral effect：claude / GPT 會由「直接靠 weight 答」變成「先 search 再答」。

點解 work？

LLM 對 system-level instruction 嘅 compliance rate 高。
PALACE_PROTOCOL 將「retrieval-augmented behavior」由 application-side（要寫 prompt template）推到 memory-side（系統自己注入）。
等於將 RAG 嘅 "please search before answering" 變成 enforce-able policy。

Loading diagram...

💡 Insight
呢個係 algorithmic vs behavioral 嘅分野。MemPalace 真正勝出嘅地方唔係搜得幾準，而係令 LLM 記得去搜。RAG 系統最大 failure mode 係 model 自信咁亂噏（hallucinate），PALACE_PROTOCOL 直接 attack 呢個 failure mode。

Knowledge Graph：Temporal 三元組 {#knowledge-graph}

MemPalace 入面有第二個 retrieval 通道：knowledge graph，存 SQLite。

Schema：

sqlCREATE TABLE triples (
    id INTEGER PRIMARY KEY,
    subject TEXT,
    predicate TEXT,
    object TEXT,
    valid_from TIMESTAMP,
    valid_to TIMESTAMP,  -- NULL = currently valid
    source_drawer_id TEXT
);

例：

javascript("billy", "prefers", "FastAPI", 2026-01-15, NULL)
("myapp", "uses", "PostgreSQL", 2026-02-10, 2026-04-01)
("myapp", "uses", "SQLite", 2026-04-01, NULL)

第三條 triple invalidate 第二條（valid_to set），實作 temporal validity window——對 "my preference changed" 呢類 query 好有用。

點 query？

python# MCP tool: kg_query
results = kg.query(
    subject="myapp",
    predicate="uses",
    at_time="2026-03-15"  # point-in-time
)
# => [("myapp", "uses", "PostgreSQL", ...)]

Reality check

Independent analysis 揭發：

❌ README claim「automatic contradiction detection」——實際 codebase knowledge_graph.py 冇任何 "contradict" 字眼，淨係 identical-triple dedup。
❌ "Multi-hop graph traversal"——實際係 flat triple lookup，冇 traversal。
❌ "Entity resolution"——naive slug conversion（"Alice O'Brien" → "alice_obrien"）。

但 temporal validity window 係真嘅，而且呢個 feature 喺 Mem0 同 Zep 都有，唔係 MemPalace 獨家。

Specialist Agents 同 Diary 系統 {#agents-diary}

MemPalace 容許每個 agent 開自己嘅 wing + diary：

yaml# ~/.mempalace/agents/architect.yaml
name: architect
wing: code/architecture
role: "System design and tradeoff analysis"
diary_path: ~/.mempalace/diaries/architect.md
last_session: 2026-04-27

每次 session 完，agent 會 append 一段 markdown 入 diary：

markdown## 2026-04-27 Session
- Discussed JWT vs session cookies for myapp
- User preferred JWT due to mobile client requirement
- Open question: refresh token rotation strategy
- Next session: explore HttpOnly + secure flags

Loading diagram...

🎯 Pattern
呢個其實同由 Prompt Engineering 到 Context Engineering 到 Harness Engineering：AI 工程三部曲嘅進化史嗰篇講嘅 agent harness engineering 同一條 axis——將 agent state externalize 出 prompt 外，prompt 永遠 stateless，state 永遠 retrievable。

Benchmark 拆解：96.6% 究竟係邊個嘅功勞？{#benchmarks}

呢個係 MemPalace 故事最 controversial 嘅部份。

LongMemEval 簡介

ICLR 2025 嘅 long-term memory benchmark，500 條 question，5 個 category：

Information Extraction（IE）
Multi-Session Reasoning（MSR）
Temporal Reasoning（TR）
Knowledge Updates（KU）
Abstention（識唔識答「我唔知」）

Metric: Recall@5 — 正確 session 有冇喺 top-5 retrieved results。

MemPalace 嘅三幕劇

Launch tweet（4 月 5 日）：「100% on LongMemEval. 500/500. 」1.5M views.
Community audit（4 月 7–11 日）：GitHub Issue #29 揭發評估方法論問題：用 top_k=50 instead of standard top-5；用 LLM judge 而非 ground truth 比對。
v3.1.0 walk-back：README 改成 "96.6% R@5 raw mode"，承認社群「caught real problems within hours」。

Independent reproduction 結果（M2 Ultra, Issue #39）

Configuration	LongMemEval-S R@5	API cost
Raw verbatim (ChromaDB only)	96.6%	$0
• Rooms metadata filter	89.4%	$0
• AAAK compression	84.2%	$0
• Haiku reranker (hybrid)	100%	~$0.02 / query

真相

Loading diagram...

MemPalace 喺 raw mode 嘅 96.6% 等同**「ChromaDB + all-MiniLM-L6-v2 + verbatim storage」**嘅 baseline。Spatial metaphor 對呢個 score 嘅貢獻接近零。

⚠️ 但係……
呢個 critique 雖然有效，唔代表 MemPalace 冇用。佢嘅 system-level value——MCP integration、wake-up cost、PALACE_PROTOCOL、diary、temporal KG——係 ChromaDB alone 冇嘅。LongMemEval 只係 measure 一個維度（retrieval recall），唔 measure ergonomics、token efficiency、multi-agent coordination。

同其他 Memory 系統比較 {#comparison}

System	LongMemEval R@5	Local-only	LLM @ write	Wake-up	強項
MemPalace v3	96.6% raw / 100% hybrid	✅	❌	~170	Zero-cost, MCP, diary
Mem0 v2 (token-eff.)	93.4%	⚠️ optional	✅ extraction	~2k	Multi-signal retrieval
Zep	~85%	❌ cloud	✅	~3k	Temporal KG, mature
Supermemory ASMR	99%	❌	✅ multi-agent	~5k	SOTA accuracy
Letta (MemGPT)	~80%	✅	✅ block summary	~1k	OS-style hierarchy
Hindsight	未公開	✅	✅	~2k	Linux-style file ops

揀邊個？

用 MemPalace 如果：

你想 zero ongoing cost（自己跑、自己 host）。
你係 daily Claude Code / Cursor user，想 ergonomic MCP setup。
你接受 verbatim storage 食硬碟（每 1M tokens ~5MB）。
你想要 deterministic、auditable 嘅 memory（每條 retrieval 有 source drawer）。

用 Mem0 / Zep 如果：

你需要 production SLA、cloud sync、team sharing。
你 OK 俾 LLM call 喺 write path（accuracy 通常更穩定）。
你需要 embedding quality 高啲（OpenAI text-embedding-3-large 級數）。

用 Supermemory ASMR 如果：

你只care accuracy，唔 care cost / latency。
你跑 enterprise search、需要 99% retrieval。

Setup 同實際使用 {#setup}

Step 1: Install

bashpip install mempalace
mempalace --version  # 應該係 3.0.0+

# Initialize palace 喺特定 project
cd ~/projects/myapp
mempalace init .

呢個會起 ~/.mempalace/ 同 ./.mempalace/ 兩個目錄。

Step 2: Mine 過往對話（optional）

如果你之前用 Claude Code、ChatGPT、Cursor，可以將 transcript export 出嚟 mine：

bashmempalace mine ~/Downloads/claude-export.json \
    --wing code \
    --room myapp \
    --split-sessions  # 拆 mega-transcript

佢會自動 chunk、embed、塞入對應 wing/room。

Step 3: 接 MCP

Claude Code（最簡單）：

json// ~/.config/claude-code/mcp_servers.json
{
  "mempalace": {
    "command": "mempalace",
    "args": ["mcp"]
  }
}

Cursor / Gemini CLI： 一樣 syntax，配返自己 config 路徑。

Auto-save hook（Claude Code 限定）：

bashmempalace install-hooks claude-code \
    --save-every 10 \
    --pre-compaction-save

每 10 條 message auto-save 一次，pre-compaction emergency save 防止 context window 滿之前 lose conversation。

Step 4: 第一次用

Claude Code 開新 session：

javascript用戶：「我之前個 myapp project 用咩 database？」

Claude（auto trigger MCP）：
  → mempalace_status (load ~170 token manifest)
  → mempalace_search(query="myapp database", wing="code")
  → 3 drawers returned

Claude：
  「根據你 2026-04-01 嘅對話,你由 PostgreSQL 換咗去
   SQLite,原因係要 simplify deployment。Refresh token
   table schema 係...」

Quick CLI 操作

bash# 睇有咩 wings
mempalace ls

# 直接搜
mempalace search "auth setup"

# Knowledge graph query
mempalace kg query --subject myapp --at 2026-03-15

# Agent diary tail
mempalace diary architect --last 5

批判性 takeaways {#takeaways}

寫到呢度，我覺得 MemPalace 嘅故事其實係 2026 年 open-source AI 嘅一個 microcosm：

✅ 真正嘅 contribution

Wake-up cost engineering：170 tokens 嘅 manifest 係 published 數字入面最低嘅。Lazy-expansion architecture 值得抄。
PALACE_PROTOCOL prompt injection：將 retrieval-augmented behavior 由 app-side 推到 system-side，behavioral 而非 algorithmic 嘅 win。
Per-agent diary：multi-agent thread-of-thought preservation。Implementation 簡單，但 ergonomic value 大。
MCP-first design：唔係 "加埋" MCP，而係由 day 1 圍繞 MCP 設計 tool surface。29 個 tool 對應 read / write / KG / diary / system 五大類，分得乾淨。
Two-dependency footprint：證明 "useful" memory system 唔需要 Postgres + Redis + cloud。對 indie hacker 同 privacy-conscious 用家係真正 unblock。

❌ 過份吹噓嘅部份

"+34% palace boost"：Independent benchmark 顯示 palace 開咗反而 regress。
"30× lossless AAAK"：實際 retrieval 跌 12.4pp；只係 downstream LLM-read 慳 token。
"Contradiction detection"：codebase 唔存在。
"100% LongMemEval"：要 paid reranker 先做到，唔係 zero-cost。
"Multi-hop KG traversal"：係 flat lookup。

💡 對工程師嘅 lesson

Loading diagram...

🎯 我嘅實際使用建議

如果你係 daily Claude Code / Cursor user，MemPalace 值得試，因為：

Setup 兩分鐘。
Cost = $0。
Lock-in = 零（全部係本地 SQLite + ChromaDB + YAML，可以隨時 export）。
最差情況都係 baseline ChromaDB 表現，已經唔錯。

唔好開 AAAK / palace 進階 feature——直接食 raw mode，反而 score 更高。

如果你係 building production AI app 嘅 team，去 Mem0 v2 / Zep / Supermemory，benchmark 同 SLA 比較 trustable。

💡 最後 takeaway
MemPalace 嘅真正歷史意義唔係「邊個 score 高啲」，而係 proved that 一個 22 歲女演員加一個 indie developer，用 Claude Code + ChromaDB + 一個古希臘 metaphor，都可以做出比 well-funded startup 更 ergonomic 嘅 daily-driver memory。

Vibe coding works. 有時候系統設計嘅勝負，唔係 algorithm benchmark，而係 frictionless ergonomics。

Table of Contents

TL;DR

背景：乜嘢係 Method of Loci？{#method-of-loci}

點樣運作？

LLM 失憶問題嘅兩條死路 {#llm-amnesia}

路徑 A：暴力擴大 context window

路徑 B：RAG + Vector DB

MemPalace 嘅第三條路：「Verbatim + Spatial Filter」

MemPalace 整體架構 {#architecture}

物理層：得兩個 dependency

邏輯層：六層空間 metaphor

4-Layer Memory Stack：點樣只用 170 tokens 喚醒成個宮殿 {#memory-stack}

L0 — Status Manifest（永遠 load）

L1–L3 — On-Demand Expansion

AAAK Compression：30× 壓縮 shorthand {#aaak}

Honest 數字（v3.1.0 之後 BENCHMARKS.md）

PALACE_PROTOCOL：Prompt Engineering 嘅暗手 {#palace-protocol}

點解 work？

Knowledge Graph：Temporal 三元組 {#knowledge-graph}

點 query？

Reality check

Specialist Agents 同 Diary 系統 {#agents-diary}

Benchmark 拆解：96.6% 究竟係邊個嘅功勞？{#benchmarks}

LongMemEval 簡介

MemPalace 嘅三幕劇

Independent reproduction 結果（M2 Ultra, Issue #39）

真相

同其他 Memory 系統比較 {#comparison}

揀邊個？

Setup 同實際使用 {#setup}

Step 1: Install

Step 2: Mine 過往對話（optional）

Step 3: 接 MCP

Step 4: 第一次用

Quick CLI 操作

批判性 takeaways {#takeaways}

✅ 真正嘅 contribution

❌ 過份吹噓嘅部份

💡 對工程師嘅 lesson

🎯 我嘅實際使用建議

相關資源 {#resources}

Table of Contents

TL;DR

背景：乜嘢係 Method of Loci？{#method-of-loci}

點樣運作？

LLM 失憶問題嘅兩條死路 {#llm-amnesia}

路徑 A：暴力擴大 context window

路徑 B：RAG + Vector DB

MemPalace 嘅第三條路：「Verbatim + Spatial Filter」

MemPalace 整體架構 {#architecture}

物理層：得兩個 dependency

邏輯層：六層空間 metaphor

4-Layer Memory Stack：點樣只用 170 tokens 喚醒成個宮殿 {#memory-stack}

L0 — Status Manifest（永遠 load）

L1–L3 — On-Demand Expansion

AAAK Compression：30× 壓縮 shorthand {#aaak}

Honest 數字（v3.1.0 之後 BENCHMARKS.md）

PALACE_PROTOCOL：Prompt Engineering 嘅暗手 {#palace-protocol}

點解 work？

Knowledge Graph：Temporal 三元組 {#knowledge-graph}

點 query？

Reality check

Specialist Agents 同 Diary 系統 {#agents-diary}

Benchmark 拆解：96.6% 究竟係邊個嘅功勞？{#benchmarks}

LongMemEval 簡介

MemPalace 嘅三幕劇

Independent reproduction 結果（M2 Ultra, Issue #39）

真相

同其他 Memory 系統比較 {#comparison}

揀邊個？

Setup 同實際使用 {#setup}

Step 1: Install

Step 2: Mine 過往對話（optional）

Step 3: 接 MCP

Step 4: 第一次用

Quick CLI 操作

批判性 takeaways {#takeaways}

✅ 真正嘅 contribution

❌ 過份吹噓嘅部份

💡 對工程師嘅 lesson