返回案例页
记忆调度复演

Agent 长短期记忆系统

短期 SessionManager(截断 MAX_HISTORY=20 + 滚动摘要) + 长期 MEMORY.md(超 2000 token 切 RAG),由 MemoryManager 调度中枢统一;生产层换成 mem0(LLM 裁判 ADD/UPDATE/DELETE/NONE)+ Milvus。

复演 MemoryManager 调度中枢:短期消息在 MAX_HISTORY=20 处压缩,候选事实过三要素写入闸,MEMORY.md 超 2000 token 切 Direct→RAG,mem0 LLM 裁判解决冲突。

mem0MilvusLangChainLlamaIndexMemory
Agent 长短期记忆系统

本地版本说明

所有参数(MAX_HISTORY=20、2000 token 阈值、三要素、mem0 四操作)均来自 Part 8 课件(mini-OpenClaw + mem0)。浏览器里不调真实 LLM/Milvus。

交互预览

短期 + 长期记忆调度

MemoryManager 调度中枢复演:短期对话压缩(MAX_HISTORY=20) → 写入三要素判断 → MEMORY.md 超 2000 token 切 RAG → mem0 LLM 裁判。

短期记忆 SessionManager

0/20

deepseek-chat · 128K · MAX_HISTORY=20

写入长期?三要素判断

候选事实:用户偏好 TypeScript,长期不用 Python

事实性稳定性跨会话复用性

长期记忆 MEMORY.md

Direct
900 tokensthreshold 2000

小于阈值 → 整份 MEMORY.md 直接注入 system prompt(MD5 缓存跳过 IO)。

mem0 LLM 裁判

生产层换成 mem0:LLM 裁判在 ADD/UPDATE/DELETE/NONE 里选一个。

建议体验

运行记忆流,看短期在 MAX_HISTORY=20 处把前 50% 折叠成摘要。

看候选事实先过「事实性 / 稳定性 / 跨会话」三要素闸,再写长期。

看 MEMORY.md 超 2000 token 切 Direct→RAG,mem0 裁判选 UPDATE。

这个试玩能说明什么

你把记忆当系统:短期(截断/压缩) + 长期(Direct/RAG) + 调度中枢。

你用明确标准把写入闸住,而不是把一切塞进向量库。

你能从手搓版平滑切到生产 mem0,并懂它的命名空间 / 裁判 / 后端取舍。

短期

SessionManager · MAX_HISTORY=20 · 前 50% 滚动摘要

长期

MEMORY.md,2000 token 切 RAG(LlamaIndex VectorStoreIndex)

生产层

mem0 LLM 裁判(ADD/UPDATE/DELETE/NONE)· Milvus · LangChain @tool