PPO 闭环复演

veRL PPO 强化学习训练

用字节开源的 veRL(HybridFlow) 单卡对 Qwen2.5-0.5B 跑经典 PPO：Actor/Critic/Reference/Reward 四模型 + Ray 编排，GSM8K 上用规则奖励(正则 ####)。配套 InstructGPT 三阶段 RLHF 精读。

复演一次 PPO 迭代：Actor 在一道 GSM8K 题上生成 CoT(#### 72)，规则奖励给 1.0，Critic 估 value，A=reward−value，Actor/Critic 更新——四个模型角色绕闭环依次点亮。

veRLPPORLHFRayvLLM

本地版本说明

四个模型角色、七步闭环、reward 正则(#### …)、step:42 指标(0.296 / 1702 tok/s) 都来自 veRL 课件《LLM RL 强化学习训练入门》。浏览器里不真跑训练。

交互预览

复演 veRL 在 Qwen2.5-0.5B 上跑 GSM8K 的 PPO 闭环：四个模型角色(Actor/Reference/Reward/Critic)依次点亮，规则奖励按 #### 答案给 0/1。

四个模型角色（Ray 编排）

Actor

Reference

Reward

Critic

FSDP + vLLM · HybridFlow · single H800

GSM8K 题目

Natalia 4 月卖了 48 个发夹，5 月卖了一半。两个月共卖多少？

1. Rollout：Actor 生成 CoT 答案

2. Reward：规则函数打分(正则匹配 ####)

3. Critic：估计 value

4. Advantage：A = reward − value (GAE)

5. Actor 更新（Clipped Objective）

6. Critic 更新（(value−reward)²）

reward: extract last 300 chars → /#### (\-?[0-9\.\,]+)/ → 1.0 correct / 0.0 wrong

建议体验

跑一步 PPO，看 Actor → Reward → Critic → Advantage → 更新依次执行。

注意规则奖励：对 #### 答案做正则，干净地给 1.0 / 0.0。

看四个角色（Actor/Reference/Reward/Critic）在对应阶段点亮。

这个试玩能说明什么

你能在工业级框架（veRL + Ray）上单卡端到端跑经典 RLHF PPO。

你理解奖励设计：可验证任务（数学）用规则奖励，而不是训 RM。

你能把 PPO 放进 RLHF（SFT → RM → PPO），读懂 InstructGPT 源头。

框架

veRL（HybridFlow）· Ray · FSDP + vLLM · Qwen2.5-0.5B on GSM8K

四角色

Actor(策略) · Critic(价值) · Reference(KL) · Reward(规则)

RLHF 源头

InstructGPT：SFT → RM → PPO；1.3B 在偏好上打败 175B GPT-3