返回案例页
PPO 闭环复演

veRL PPO 强化学习训练

用字节开源的 veRL(HybridFlow) 单卡对 Qwen2.5-0.5B 跑经典 PPO:Actor/Critic/Reference/Reward 四模型 + Ray 编排,GSM8K 上用规则奖励(正则 ####)。配套 InstructGPT 三阶段 RLHF 精读。

复演一次 PPO 迭代:Actor 在一道 GSM8K 题上生成 CoT(#### 72),规则奖励给 1.0,Critic 估 value,A=reward−value,Actor/Critic 更新——四个模型角色绕闭环依次点亮。

veRLPPORLHFRayvLLM
veRL PPO 强化学习训练

本地版本说明

四个模型角色、七步闭环、reward 正则(#### …)、step:42 指标(0.296 / 1702 tok/s) 都来自 veRL 课件《LLM RL 强化学习训练入门》。浏览器里不真跑训练。

交互预览

一次 PPO 迭代(veRL · GSM8K)

复演 veRL 在 Qwen2.5-0.5B 上跑 GSM8K 的 PPO 闭环:四个模型角色(Actor/Reference/Reward/Critic)依次点亮,规则奖励按 #### 答案给 0/1。

四个模型角色(Ray 编排)

Actor
Reference
Reward
Critic

FSDP + vLLM · HybridFlow · single H800

GSM8K 题目

Natalia 4 月卖了 48 个发夹,5 月卖了一半。两个月共卖多少?

1. Rollout:Actor 生成 CoT 答案

2. Reward:规则函数打分(正则匹配 ####)

3. Critic:估计 value

4. Advantage:A = reward − value (GAE)

5. Actor 更新(Clipped Objective)

6. Critic 更新((value−reward)²)

reward: extract last 300 chars → /#### (\-?[0-9\.\,]+)/ → 1.0 correct / 0.0 wrong

建议体验

跑一步 PPO,看 Actor → Reward → Critic → Advantage → 更新 依次执行。

注意规则奖励:对 #### 答案做正则,干净地给 1.0 / 0.0。

看四个角色(Actor/Reference/Reward/Critic)在对应阶段点亮。

这个试玩能说明什么

你能在工业级框架(veRL + Ray)上单卡端到端跑经典 RLHF PPO。

你理解奖励设计:可验证任务(数学)用规则奖励,而不是训 RM。

你能把 PPO 放进 RLHF(SFT → RM → PPO),读懂 InstructGPT 源头。

框架

veRL(HybridFlow)· Ray · FSDP + vLLM · Qwen2.5-0.5B on GSM8K

四角色

Actor(策略) · Critic(价值) · Reference(KL) · Reward(规则)

RLHF 源头

InstructGPT:SFT → RM → PPO;1.3B 在偏好上打败 175B GPT-3