模型 × 设计公式

Harness Engineering 实战

Agent 产出质量 = 模型能力 × 设计水平。设计 Agent 运行时环境的四大支柱(代码库即真相源 / 机械化约束 / 反馈循环 / 熵管理)。实测：模型不变，光靠 Harness 把 Terminal Bench 从 52.8% 拉到 66.5%。

依次装上 Harness 四大支柱，看 benchmark 从裸模型 52.8% 爬到满 Harness 66.5%——模型保持不变。

Harness EngineeringClaude CodeHooksAgent Runtime

本地版本说明

52.8% / 66.5% 是课程引用的 LangChain 实测端点（同一个 GPT-5.2-Codex，只改 Harness）；中间过程为示意。支柱名称来自《Harness Engineering 技术实战》课件。

交互预览

产出质量 = 模型能力 × 设计水平。装上 Harness 四大支柱，模型不变（GPT-5.2-Codex），Terminal Bench 2.0 从 52.8% 提到 66.5%。

① 代码库即真相源

CLAUDE.md / AGENTS.md ~100 行「行军指南」，声明式注入项目知识。

② 机械化架构约束

「CLAUDE.md 是建议，Hooks 是法律」：PreToolUse / PostToolUse 强制拦截。

③ 反馈循环

四层反馈：即时(Hooks) → 构建(CI/CD) → 跨会话两层。

④ 熵管理

对抗文档漂移 / 架构侵蚀 / 风格不一致 / 重复代码。

Terminal Bench 2.0

52.8%

裸模型 52.8%满 Harness 66.5%

中间过程为示意；52.8% / 66.5% 是课程引用的实测端点。

Harness 完整度

0/4 支柱

建议体验

装配 Harness，看四大支柱依次点亮。

注意端点：裸模型 52.8% → 满 Harness 66.5%，模型不变。

对比换模型只 +6.8pp —— Harness 的收益约是其 2 倍。

这个试玩能说明什么

你内化了「产出质量 = 模型能力 × 设计水平」这个乘法。

你能说清并落地四大支柱：代码库即真相源、机械化约束(Hooks)、反馈循环、熵管理。

你用实测 benchmark 说话，而不是「感觉」——并能按场景选深/轻 Harness 平台。

核心数据

Terminal Bench 2.0：52.8% → 66.5%（+13.7pp），全来自 Harness

四大支柱

代码库即真相源 · 机械化约束(Hooks) · 反馈循环 · 熵管理

最强信号

Agent 运行时工程的判断力，用实测说话