上下文预算复演

上下文工程中间件

抗 Context Rot：六大上下文模块 × 五大策略(Write/Select/Compress/Isolate/Cache)，全部落成可叠加的 LangChain middleware，按「先 Cache(省 90%) 后 Isolate」优先级用。

六大模块占满上下文窗口；按课程的「先 Cache 后 Isolate」优先级叠加五大策略，看窗口 token 和相对成本一起降。

Context EngineeringLangChainMiddlewarePrompt Cache

本地版本说明

决策优先级、五大策略（Write/Select/Compress/Isolate/Cache）、Compress 子技术、Cache 省 90% 等都来自 Part 9 课件。token / 成本数值为示意。

交互预览

六大模块占满窗口，按「先 Cache 后 Isolate」的决策优先级叠加五大策略——窗口和成本一起降。

六大上下文模块

系统提示层

对话历史层

记忆注入层

工具上下文层

任务状态层

外部知识层

对话历史 + 工具上下文合计 >50% 窗口（最大的两个「水龙头」）。

有效窗口

180K

相对成本

100%

① Cache 提示缓存

静态前缀缓存命中，cache-read 仅 10%（省 90% 成本），首日就能上

② Compress 工具结果清除

清掉冗长的原始工具输出，只留「决策 + 为什么」，零成本

③ Compress 观察遮蔽 + trim

遮蔽旧观察 + trim_messages 硬截断对话历史

④ Isolate 子 Agent 隔离

SubAgentMiddleware 把外部知识检索丢进独立上下文

⑤ Write + Select

任务状态 offload 到 scratchpad，记忆 JIT 检索

建议体验

叠加策略，看窗口逐模块缩小。

注意 Cache 最先用（省 90%，首日），系统提示前缀变成 cached。

看 Isolate 只在按需时把外部知识检索丢进子 Agent 上下文。

这个试玩能说明什么

你理解 Context Rot——更大窗口 ≠ 更好——并主动管理。

你能说清每个模块、选对策略，并落成可叠加的 LangChain middleware。

你按成本排序：零成本（Cache / 工具结果清除）先上，复杂（Isolate / Write）按需。

框架

六大模块 × 五大策略（Write/Select/Compress/Isolate/Cache）

中间件

trim_messages · SummarizationMiddleware · SubAgentMiddleware（deepagents）

成本杠杆

Prompt cache：cache-read 仅 10%（省 90%），前缀逐字节稳定