返回案例页
模型 × 设计公式

Harness Engineering 实战

Agent 产出质量 = 模型能力 × 设计水平。设计 Agent 运行时环境的四大支柱(代码库即真相源 / 机械化约束 / 反馈循环 / 熵管理)。实测:模型不变,光靠 Harness 把 Terminal Bench 从 52.8% 拉到 66.5%。

依次装上 Harness 四大支柱,看 benchmark 从裸模型 52.8% 爬到满 Harness 66.5%——模型保持不变。

Harness EngineeringClaude CodeHooksAgent Runtime
Harness Engineering 实战

本地版本说明

52.8% / 66.5% 是课程引用的 LangChain 实测端点(同一个 GPT-5.2-Codex,只改 Harness);中间过程为示意。支柱名称来自《Harness Engineering 技术实战》课件。

交互预览

同一个模型,靠 Harness 拉高 benchmark

产出质量 = 模型能力 × 设计水平。装上 Harness 四大支柱,模型不变(GPT-5.2-Codex),Terminal Bench 2.0 从 52.8% 提到 66.5%。

① 代码库即真相源

CLAUDE.md / AGENTS.md ~100 行「行军指南」,声明式注入项目知识。

② 机械化架构约束

「CLAUDE.md 是建议,Hooks 是法律」:PreToolUse / PostToolUse 强制拦截。

③ 反馈循环

四层反馈:即时(Hooks) → 构建(CI/CD) → 跨会话两层。

④ 熵管理

对抗文档漂移 / 架构侵蚀 / 风格不一致 / 重复代码。

Terminal Bench 2.0

52.8%

裸模型 52.8%满 Harness 66.5%

中间过程为示意;52.8% / 66.5% 是课程引用的实测端点。

Harness 完整度

0/4 支柱

建议体验

装配 Harness,看四大支柱依次点亮。

注意端点:裸模型 52.8% → 满 Harness 66.5%,模型不变。

对比换模型只 +6.8pp —— Harness 的收益约是其 2 倍。

这个试玩能说明什么

你内化了「产出质量 = 模型能力 × 设计水平」这个乘法。

你能说清并落地四大支柱:代码库即真相源、机械化约束(Hooks)、反馈循环、熵管理。

你用实测 benchmark 说话,而不是「感觉」——并能按场景选深/轻 Harness 平台。

核心数据

Terminal Bench 2.0:52.8% → 66.5%(+13.7pp),全来自 Harness

四大支柱

代码库即真相源 · 机械化约束(Hooks) · 反馈循环 · 熵管理

最强信号

Agent 运行时工程的判断力,用实测说话