Harness Engineering 实战
Agent 产出质量 = 模型能力 × 设计水平。设计 Agent 运行时环境的四大支柱(代码库即真相源 / 机械化约束 / 反馈循环 / 熵管理)。实测:模型不变,光靠 Harness 把 Terminal Bench 从 52.8% 拉到 66.5%。
依次装上 Harness 四大支柱,看 benchmark 从裸模型 52.8% 爬到满 Harness 66.5%——模型保持不变。
本地版本说明
52.8% / 66.5% 是课程引用的 LangChain 实测端点(同一个 GPT-5.2-Codex,只改 Harness);中间过程为示意。支柱名称来自《Harness Engineering 技术实战》课件。
同一个模型,靠 Harness 拉高 benchmark
产出质量 = 模型能力 × 设计水平。装上 Harness 四大支柱,模型不变(GPT-5.2-Codex),Terminal Bench 2.0 从 52.8% 提到 66.5%。
① 代码库即真相源
CLAUDE.md / AGENTS.md ~100 行「行军指南」,声明式注入项目知识。
② 机械化架构约束
「CLAUDE.md 是建议,Hooks 是法律」:PreToolUse / PostToolUse 强制拦截。
③ 反馈循环
四层反馈:即时(Hooks) → 构建(CI/CD) → 跨会话两层。
④ 熵管理
对抗文档漂移 / 架构侵蚀 / 风格不一致 / 重复代码。
Terminal Bench 2.0
52.8%
中间过程为示意;52.8% / 66.5% 是课程引用的实测端点。
Harness 完整度
0/4 支柱
建议体验
装配 Harness,看四大支柱依次点亮。
注意端点:裸模型 52.8% → 满 Harness 66.5%,模型不变。
对比换模型只 +6.8pp —— Harness 的收益约是其 2 倍。
这个试玩能说明什么
你内化了「产出质量 = 模型能力 × 设计水平」这个乘法。
你能说清并落地四大支柱:代码库即真相源、机械化约束(Hooks)、反馈循环、熵管理。
你用实测 benchmark 说话,而不是「感觉」——并能按场景选深/轻 Harness 平台。
核心数据
Terminal Bench 2.0:52.8% → 66.5%(+13.7pp),全来自 Harness
四大支柱
代码库即真相源 · 机械化约束(Hooks) · 反馈循环 · 熵管理
最强信号
Agent 运行时工程的判断力,用实测说话