「你同 AI agent 傾咗三個鐘,將個 project architecture、coding preference、deployment constraint 全部解釋過一次。第二朝開新 session,佢完全唔記得你係邊個。」 呢個唔係 bug,係 LLM 嘅本質——stateless by design。
2026 年 4 月 5 日,Milla Jovovich(係,Resident Evil 嗰位)同開發者 Ben Sigman 喺 GitHub 開源咗一個叫 MemPalace 嘅 AI memory 系統。兩星期內攞到 47,000+ stars,X 上單條 launch tweet 1.5M views。佢嘅 idea 簡單到誇張——將 2,500 年前古希臘人記長篇演講嘅技巧(method of loci,記憶宮殿)搬入 LLM agent。
更癲嘅係:佢喺 LongMemEval 攞到 96.6% Recall@5(hybrid mode 加 Haiku rerank 仲做到 100%),而且 zero API call、純本地運行,淨係用 ChromaDB + PyYAML + SQLite。
但 hype 散咗之後,社群同學界嘅 critical analysis 又有另一個故事:raw mode 跑得仲快過 palace structure,AAAK compression 反而 regress 12.4 個百分點……今篇 blog 我會由 method of loci 講起,由淺入深拆 MemPalace 嘅 4-layer 架構、AAAK shorthand、PALACE_PROTOCOL、Knowledge Graph,再客觀講吓邊啲位係真 innovation、邊啲位其實係 ChromaDB 喺度做嘢。
Table of Contents
- TL;DR
- 背景:乜嘢係 Method of Loci?
- LLM 失憶問題嘅兩條死路
- MemPalace 整體架構
- 4-Layer Memory Stack:點樣只用 170 tokens 喚醒成個宮殿
- AAAK Compression:30× 壓縮 shorthand
- PALACE_PROTOCOL:Prompt Engineering 嘅暗手
- Knowledge Graph:Temporal 三元組
- Specialist Agents 同 Diary 系統
- Benchmark 拆解:96.6% 究竟係邊個嘅功勞?
- 同其他 Memory 系統比較
- Setup 同實際使用
- 批判性 takeaways
- 相關資源
TL;DR
核心重點:
- 🏛️ Method of Loci 入侵 AI:MemPalace 將「Wings → Rooms → Halls → Closets → Drawers」嘅空間 metaphor 變成 ChromaDB 嘅 metadata filter,配 SQLite 做 knowledge graph,整個系統得 2 個 runtime dependency(chromadb + pyyaml)。
- ⚡ 170 tokens wake-up cost:4-layer memory stack(L0 manifest → L1 wing index → L2 room → L3 drawer),唔需要將成份 memory load 入 prompt,搵到先 expand。
- 🎯 96.6% LongMemEval R@5:raw verbatim mode + ChromaDB default embedding(all-MiniLM-L6-v2)做出嚟,完全冇用 palace structure——呢個係 critique 嘅核心。
- 🔧 29 個 MCP tools + PALACE_PROTOCOL:直接同 Claude Code、Cursor、ChatGPT、Gemini 接駁,prompt injection 教 LLM「答之前先 search」,behavioral 而非 algorithmic 嘅優化。
- ⚠️ 誠實面:palace structure 開咗反而 -7.2pp,AAAK 開咗 -12.4pp。Mem0 v2 用 token-efficient extraction 已經追到 93.4%,Supermemory ASMR 用 multi-agent rerank 攞 99%。MemPalace 嘅唯一護城河係 zero-cost、offline、deterministic。
- 💡 真正啟示:將 prompt engineering(PALACE_PROTOCOL)、低 wake-up cost、per-agent diary 三件事整合做一個 ergonomic 嘅 daily-driver memory,遠比個別 component 重要。
背景:乜嘢係 Method of Loci?{#method-of-loci}
古希臘詩人 Simonides of Ceos(公元前 6 世紀)有一日去咗個 banquet 表演,行開咗一陣,個 hall 就塌咗壓死晒所有人,遺體完全認唔出。Simonides 閉上眼,憑記憶「行返」入個 hall,靠位置逐個 identify 受害者。呢個就係 method of loci 嘅起源。
點樣運作?
- 心入面起一個你好熟悉嘅建築(例如屋企、學校)。
- 將你想記嘅嘢,用視覺化方式擺入唔同房間。
- 要回憶嘅時候,mental walk through 個建築,逐個房間「睇」返啲嘢。
例如要記 grocery list:
- 🥛 Milk 浸晒個玄關
- 🥚 Eggs 坐喺梳化
- 🍞 Bread 擺喺廚房 counter
呢套技巧由古羅馬延續到中世紀僧侶背聖經,到今日 World Memory Champions 用嚟記 70,000 個 π 嘅小數位。Hannibal Lecter 同 Sherlock Holmes 嗰個 mind palace 都係呢個概念。
🎯 核心 insight
人腦對 spatial relationship 嘅記憶遠強過 flat list。將「資訊」轉成「位置 + 圖像」,retrieval 由 sequential search 變成 navigation。MemPalace 將呢個 metaphor 直接搬入 vector DB 嘅 metadata schema。
LLM 失憶問題嘅兩條死路 {#llm-amnesia}
業界處理「AI 點樣記得返之前傾過嘅嘢」呢個問題,過去三年主要兩條路:
路徑 A:暴力擴大 context window
Gemini 1.5 Pro 直接擺 1M、2M、10M tokens 入 prompt,DeepSeek-V4:1.6T MoE × 1M context × Hybrid Attention,DeepSeek 點樣將 long-context inference 砍到 V3.2 嘅 27% FLOPs / 10% KV cache? 都做到 1M。但有兩個死症:
- 「Lost in the Middle」:研究 consistent 顯示 LLM 對 prompt 中段嘅資訊 retrieval 顯著差過頭尾兩端。塞 1M tokens ≠ 用到 1M tokens。
- 成本爆炸:每次都重新讀晒 6 個月對話,input tokens 線性 scale。
路徑 B:RAG + Vector DB
將對話 chunk + embed,retrieval 嗰陣 nearest neighbor。Mem0、Zep、Letta、Hindsight 全部呢條路。問題係:
- 大部份系統會 summarize / extract 入 memory(慳 storage),但 extraction 一定會 lose information。
- Flat semantic search 喺 corpus 大到一個 size 之後,top-k 結果會 dilute。
MemPalace 嘅第三條路:「Verbatim + Spatial Filter」
| 策略 | Big Context | RAG (Mem0/Zep) | MemPalace |
|---|---|---|---|
| 儲存方式 | 原文塞 prompt | Extract / summarize | Verbatim • 結構化 metadata |
| Retrieval | Lost in middle | Semantic top-k | Wing/Room filter + semantic top-k |
| Inference cost | 每次 1M tokens | Write 時 LLM call | Zero LLM call(read & write) |
| Information loss | None(但讀唔到) | ⚠️ Extraction loss | ✅ 零 loss(verbatim) |
| Wake-up cost | 1M tokens | 2k–5k tokens | ~170 tokens |
核心 trade-off:MemPalace 用 更多本地 disk 空間(verbatim 唔壓縮),換零 inference cost 同零 information loss。
MemPalace 整體架構 {#architecture}
物理層:得兩個 dependency
bashpip install mempalace
# 拉 chromadb + pyyaml,完。
- ChromaDB:向量資料庫,default embedding 用
all-MiniLM-L6-v2(384-dim、開源、CPU 行得郁)。 - SQLite:knowledge graph 同 diary metadata。
- YAML files:人類可讀嘅 palace 結構定義。
冇 Redis、冇 Postgres、冇 cloud API、冇 GPU 要求。一個 ~/.mempalace 目錄搞掂。
邏輯層:六層空間 metaphor
| Layer | 比喻 | 實質 | 例子 |
|---|---|---|---|
| Wing | 翼 | Top-level domain / agent | code, personal, research |
| Room | 房 | Project / topic | code/myapp, personal/health |
| Hall | 走廊 | Memory type corridor | decisions, bugs, preferences |
| Closet | 櫃 | Sub-category | auth-system, db-schema |
| Drawer | 抽屜 | 單一 conversation chunk | 原文 verbatim |
| Tunnel | 隧道 | Cross-wing reference | Code 連去 Personal |
關鍵實作真相:呢啲 layer 喺底層只係 ChromaDB 嘅 metadata field。Search 嗰陣 build_where_filter() 將 wing="code" AND room="myapp" 變成 ChromaDB where clause。
python# 簡化版概念
results = collection.query(
query_texts=["how did I configure auth?"],
n_results=5,
where={"wing": "code", "room": "myapp"} # palace filter
)
⚠️ Reality check
Independent code analysis(lhl/agentic-memory、Vectorize.io、arXiv 2604.21284)一致指出:palace hierarchy 喺實作上等同 standard metadata filtering,每個 mainstream vector DB(Pinecone、Weaviate、Qdrant)都有。「+34% palace boost」嘅 claim 係 narrowing search space 嘅效果,唔係空間 metaphor 本身嘅魔法。
4-Layer Memory Stack:點樣只用 170 tokens 喚醒成個宮殿 {#memory-stack}
如果 wake-up 嗰陣將成個 palace 嘅 index 都讀入 prompt,幾千 token 起跳,根本冇得玩。MemPalace 用 lazy expansion 解決:
L0 — Status Manifest(永遠 load)
Claude Code 一開新 session,MCP 自動 inject ~170 tokens:
yamlPALACE_PROTOCOL: "Search before claiming ignorance."
Wings:
- code (4 rooms, 127 drawers)
- personal (2 rooms, 34 drawers)
- research (3 rooms, 89 drawers)
Last accessed: 2026-04-27 myapp/auth-system
LLM 一見到呢個 manifest 就知有乜資源。問問題嗰陣會 trigger mempalace_search。
L1–L3 — On-Demand Expansion
根據 query 動態 fetch 對應層嘅 detail。呢個 deferral 係 wake-up cost 由 2k–5k(其他 RAG 系統)跌到 170 tokens 嘅關鍵。
💡 設計啟示
Memory system 唔係 storage problem,係 attention budget problem。LLM 嘅 effective context 始終有限,將「成個 memory」放入 prompt 會 dilute attention。MemPalace 嘅 lazy expansion 等於 OS 嘅 demand paging——只 fault 你需要嘅頁。
AAAK Compression:30× 壓縮 shorthand {#aaak}
AAAK(Artificial Abbreviated Agent Kompression,名係 marketing-driven,唔好深究)係 MemPalace 提出嘅一套 LLM-readable shorthand。例如:
javascript原文:
User: I'd like to add JWT-based authentication to my app.
The app uses Express on Node.js and stores users in PostgreSQL.
Session should expire after 24 hours.
AAAK:
U>JWT-auth, Express/Node, PG-users, sess=24h
聲稱「30× lossless」,喺 README 一度被狠批,後來作者自己 walk back。
Honest 數字(v3.1.0 之後 BENCHMARKS.md)
| Mode | LongMemEval R@5 | Delta vs Raw |
|---|---|---|
| Raw verbatim | 96.6% | baseline |
| Rooms enabled | 89.4% | −7.2 pp ⚠️ |
| AAAK compressed | 84.2% | −12.4 pp ⚠️ |
即係:AAAK 開咗,benchmark 反而跌。原因?compression 改變咗原文 surface form,而 ChromaDB 嘅 default embedding 對 surface lexical overlap 敏感。Compression artifact 直接掉 retrieval recall。
⚠️ Takeaway
AAAK 嘅實際價值唔係 retrieval boost,而係 後續 LLM read 時嘅 token 慳省。如果你想餵 50 條 drawer 入 GPT-4 做 reasoning,AAAK 可以將 prompt 由 30k tokens 縮到 ~1k。但呢個係 downstream 用法問題,唔係 retrieval problem。
PALACE_PROTOCOL:Prompt Engineering 嘅暗手 {#palace-protocol}
呢個我覺得係 MemPalace 真正 underappreciated 嘅 innovation。
MCP server 嘅 mempalace_status tool output 入面 hard-code 咗一段 directive:
javascriptPALACE_PROTOCOL:
Before answering any question about people, projects,
preferences, or past decisions:
1. Call mempalace_search with relevant keywords.
2. If results return matches, cite them.
3. Only claim ignorance after a search returns empty.
4. After session ends, write a diary entry.
LLM 每次見到 status 都會讀到呢段。Behavioral effect:claude / GPT 會由「直接靠 weight 答」變成「先 search 再答」。
點解 work?
- LLM 對 system-level instruction 嘅 compliance rate 高。
PALACE_PROTOCOL將「retrieval-augmented behavior」由 application-side(要寫 prompt template)推到 memory-side(系統自己注入)。- 等於將 RAG 嘅 "please search before answering" 變成 enforce-able policy。
💡 Insight
呢個係 algorithmic vs behavioral 嘅分野。MemPalace 真正勝出嘅地方唔係搜得幾準,而係令 LLM 記得去搜。RAG 系統最大 failure mode 係 model 自信咁亂噏(hallucinate),PALACE_PROTOCOL 直接 attack 呢個 failure mode。
Knowledge Graph:Temporal 三元組 {#knowledge-graph}
MemPalace 入面有第二個 retrieval 通道:knowledge graph,存 SQLite。
Schema:
sqlCREATE TABLE triples (
id INTEGER PRIMARY KEY,
subject TEXT,
predicate TEXT,
object TEXT,
valid_from TIMESTAMP,
valid_to TIMESTAMP, -- NULL = currently valid
source_drawer_id TEXT
);
例:
javascript("billy", "prefers", "FastAPI", 2026-01-15, NULL)
("myapp", "uses", "PostgreSQL", 2026-02-10, 2026-04-01)
("myapp", "uses", "SQLite", 2026-04-01, NULL)
第三條 triple invalidate 第二條(valid_to set),實作 temporal validity window——對 "my preference changed" 呢類 query 好有用。
點 query?
python# MCP tool: kg_query
results = kg.query(
subject="myapp",
predicate="uses",
at_time="2026-03-15" # point-in-time
)
# => [("myapp", "uses", "PostgreSQL", ...)]
Reality check
Independent analysis 揭發:
- ❌ README claim「automatic contradiction detection」——實際 codebase
knowledge_graph.py冇任何 "contradict" 字眼,淨係 identical-triple dedup。 - ❌ "Multi-hop graph traversal"——實際係 flat triple lookup,冇 traversal。
- ❌ "Entity resolution"——naive slug conversion("Alice O'Brien" → "alice_obrien")。
但 temporal validity window 係真嘅,而且呢個 feature 喺 Mem0 同 Zep 都有,唔係 MemPalace 獨家。
Specialist Agents 同 Diary 系統 {#agents-diary}
MemPalace 容許每個 agent 開自己嘅 wing + diary:
yaml# ~/.mempalace/agents/architect.yaml
name: architect
wing: code/architecture
role: "System design and tradeoff analysis"
diary_path: ~/.mempalace/diaries/architect.md
last_session: 2026-04-27
每次 session 完,agent 會 append 一段 markdown 入 diary:
markdown## 2026-04-27 Session
- Discussed JWT vs session cookies for myapp
- User preferred JWT due to mobile client requirement
- Open question: refresh token rotation strategy
- Next session: explore HttpOnly + secure flags
下次 boot up,agent 自動讀返自己嘅 diary。對 multi-agent system(例如 architect + coder + reviewer)特別有用——每個專家保留自己嘅 thread of thought,唔會被其他 agent 嘅 noise 污染。
🎯 Pattern
呢個其實同 由 Prompt Engineering 到 Context Engineering 到 Harness Engineering:AI 工程三部曲嘅進化史 嗰篇講嘅 agent harness engineering 同一條 axis——將 agent state externalize 出 prompt 外,prompt 永遠 stateless,state 永遠 retrievable。
Benchmark 拆解:96.6% 究竟係邊個嘅功勞?{#benchmarks}
呢個係 MemPalace 故事最 controversial 嘅部份。
LongMemEval 簡介
ICLR 2025 嘅 long-term memory benchmark,500 條 question,5 個 category:
- Information Extraction(IE)
- Multi-Session Reasoning(MSR)
- Temporal Reasoning(TR)
- Knowledge Updates(KU)
- Abstention(識唔識答「我唔知」)
Metric: Recall@5 — 正確 session 有冇喺 top-5 retrieved results。
MemPalace 嘅三幕劇
- Launch tweet(4 月 5 日):「100% on LongMemEval. 500/500. 」1.5M views.
- Community audit(4 月 7–11 日):GitHub Issue #29 揭發評估方法論問題:用
top_k=50instead of standard top-5;用 LLM judge 而非 ground truth 比對。 - v3.1.0 walk-back:README 改成 "96.6% R@5 raw mode",承認社群「caught real problems within hours」。
Independent reproduction 結果(M2 Ultra, Issue #39)
| Configuration | LongMemEval-S R@5 | API cost |
|---|---|---|
| Raw verbatim (ChromaDB only) | 96.6% | $0 |
| • Rooms metadata filter | 89.4% | $0 |
| • AAAK compression | 84.2% | $0 |
| • Haiku reranker (hybrid) | 100% | ~$0.02 / query |
真相
MemPalace 喺 raw mode 嘅 96.6% 等同**「ChromaDB + all-MiniLM-L6-v2 + verbatim storage」**嘅 baseline。Spatial metaphor 對呢個 score 嘅貢獻接近零。
⚠️ 但係……
呢個 critique 雖然有效,唔代表 MemPalace 冇用。佢嘅 system-level value——MCP integration、wake-up cost、PALACE_PROTOCOL、diary、temporal KG——係 ChromaDB alone 冇嘅。LongMemEval 只係 measure 一個維度(retrieval recall),唔 measure ergonomics、token efficiency、multi-agent coordination。
同其他 Memory 系統比較 {#comparison}
| System | LongMemEval R@5 | Local-only | LLM @ write | Wake-up | 強項 |
|---|---|---|---|---|---|
| MemPalace v3 | 96.6% raw / 100% hybrid | ✅ | ❌ | ~170 | Zero-cost, MCP, diary |
| Mem0 v2 (token-eff.) | 93.4% | ⚠️ optional | ✅ extraction | ~2k | Multi-signal retrieval |
| Zep | ~85% | ❌ cloud | ✅ | ~3k | Temporal KG, mature |
| Supermemory ASMR | 99% | ❌ | ✅ multi-agent | ~5k | SOTA accuracy |
| Letta (MemGPT) | ~80% | ✅ | ✅ block summary | ~1k | OS-style hierarchy |
| Hindsight | 未公開 | ✅ | ✅ | ~2k | Linux-style file ops |
揀邊個?
用 MemPalace 如果:
- 你想 zero ongoing cost(自己跑、自己 host)。
- 你係 daily Claude Code / Cursor user,想 ergonomic MCP setup。
- 你接受 verbatim storage 食硬碟(每 1M tokens ~5MB)。
- 你想要 deterministic、auditable 嘅 memory(每條 retrieval 有 source drawer)。
用 Mem0 / Zep 如果:
- 你需要 production SLA、cloud sync、team sharing。
- 你 OK 俾 LLM call 喺 write path(accuracy 通常更穩定)。
- 你需要 embedding quality 高啲(OpenAI text-embedding-3-large 級數)。
用 Supermemory ASMR 如果:
- 你只care accuracy,唔 care cost / latency。
- 你跑 enterprise search、需要 99% retrieval。
Setup 同實際使用 {#setup}
Step 1: Install
bashpip install mempalace
mempalace --version # 應該係 3.0.0+
# Initialize palace 喺特定 project
cd ~/projects/myapp
mempalace init .
呢個會起 ~/.mempalace/ 同 ./.mempalace/ 兩個目錄。
Step 2: Mine 過往對話(optional)
如果你之前用 Claude Code、ChatGPT、Cursor,可以將 transcript export 出嚟 mine:
bashmempalace mine ~/Downloads/claude-export.json \
--wing code \
--room myapp \
--split-sessions # 拆 mega-transcript
佢會自動 chunk、embed、塞入對應 wing/room。
Step 3: 接 MCP
Claude Code(最簡單):
json// ~/.config/claude-code/mcp_servers.json
{
"mempalace": {
"command": "mempalace",
"args": ["mcp"]
}
}
Cursor / Gemini CLI: 一樣 syntax,配返自己 config 路徑。
Auto-save hook(Claude Code 限定):
bashmempalace install-hooks claude-code \ --save-every 10 \ --pre-compaction-save
每 10 條 message auto-save 一次,pre-compaction emergency save 防止 context window 滿之前 lose conversation。
Step 4: 第一次用
Claude Code 開新 session:
javascript用戶:「我之前個 myapp project 用咩 database?」
Claude(auto trigger MCP):
→ mempalace_status (load ~170 token manifest)
→ mempalace_search(query="myapp database", wing="code")
→ 3 drawers returned
Claude:
「根據你 2026-04-01 嘅對話,你由 PostgreSQL 換咗去
SQLite,原因係要 simplify deployment。Refresh token
table schema 係...」
Quick CLI 操作
bash# 睇有咩 wings
mempalace ls
# 直接搜
mempalace search "auth setup"
# Knowledge graph query
mempalace kg query --subject myapp --at 2026-03-15
# Agent diary tail
mempalace diary architect --last 5
批判性 takeaways {#takeaways}
寫到呢度,我覺得 MemPalace 嘅故事其實係 2026 年 open-source AI 嘅一個 microcosm:
✅ 真正嘅 contribution
- Wake-up cost engineering:170 tokens 嘅 manifest 係 published 數字入面最低嘅。Lazy-expansion architecture 值得抄。
- PALACE_PROTOCOL prompt injection:將 retrieval-augmented behavior 由 app-side 推到 system-side,behavioral 而非 algorithmic 嘅 win。
- Per-agent diary:multi-agent thread-of-thought preservation。Implementation 簡單,但 ergonomic value 大。
- MCP-first design:唔係 "加埋" MCP,而係由 day 1 圍繞 MCP 設計 tool surface。29 個 tool 對應 read / write / KG / diary / system 五大類,分得乾淨。
- Two-dependency footprint:證明 "useful" memory system 唔需要 Postgres + Redis + cloud。對 indie hacker 同 privacy-conscious 用家係真正 unblock。
❌ 過份吹噓嘅部份
- "+34% palace boost":Independent benchmark 顯示 palace 開咗反而 regress。
- "30× lossless AAAK":實際 retrieval 跌 12.4pp;只係 downstream LLM-read 慳 token。
- "Contradiction detection":codebase 唔存在。
- "100% LongMemEval":要 paid reranker 先做到,唔係 zero-cost。
- "Multi-hop KG traversal":係 flat lookup。
💡 對工程師嘅 lesson
MemPalace 4 日內 walk back 嘅速度其實係正面 signal——好多 academic 同 startup 揀靜雞雞改 paper / spec,唔講。對 OSS ecosystem 嚟講,社群審計 + 作者 acknowledge 嘅 cycle 比個別 score 重要。
🎯 我嘅實際使用建議
如果你係 daily Claude Code / Cursor user,MemPalace 值得試,因為:
- Setup 兩分鐘。
- Cost = $0。
- Lock-in = 零(全部係本地 SQLite + ChromaDB + YAML,可以隨時 export)。
- 最差情況都係 baseline ChromaDB 表現,已經唔錯。
唔好開 AAAK / palace 進階 feature——直接食 raw mode,反而 score 更高。
如果你係 building production AI app 嘅 team,去 Mem0 v2 / Zep / Supermemory,benchmark 同 SLA 比較 trustable。
💡 最後 takeaway
MemPalace 嘅真正歷史意義唔係「邊個 score 高啲」,而係 proved that 一個 22 歲女演員加一個 indie developer,用 Claude Code + ChromaDB + 一個古希臘 metaphor,都可以做出比 well-funded startup 更 ergonomic 嘅 daily-driver memory。Vibe coding works. 有時候系統設計嘅勝負,唔係 algorithm benchmark,而係 frictionless ergonomics。
相關資源 {#resources}
- 🏛️ GitHub:MemPalace/mempalace
- 📄 Critical paper:Spatial Metaphors for LLM Memory: A Critical Analysis of the MemPalace Architecture (arXiv 2604.21284)
- 🔬 Independent code review:lhl/agentic-memory ANALYSIS-mempalace.md
- 📊 Benchmark dispute:Vectorize.io — MemPalace Benchmarks Debunked
- 🧪 M2 Ultra reproduction:GitHub Issue #39
- 📘 LongMemEval(ICLR 2025):xiaowu0162/LongMemEval
- 🧠 Method of Loci 背景:Wikipedia — Method of loci
- 🆚 Mem0 v2 token-efficient algorithm:mem0.ai
- 🆚 Supermemory ASMR (99% LongMemEval):supermemory.ai
- 💬 Reddit discussion:r/LocalLLaMA — Mem Palace local memory
- 🎬 Milla Jovovich 親述 origin story:Instagram reel
- 📝 Related blog:由 Prompt Engineering 到 Context Engineering 到 Harness Engineering:AI 工程三部曲嘅進化史(agent harness engineering 點樣 externalize state)
- 📝 Related blog:Recursive Language Models (RLM):MIT 突破超長文檔處理嘅新架構(另一條 long-context 路線)