veRL PPO 强化学习训练
用字节开源的 veRL(HybridFlow) 单卡对 Qwen2.5-0.5B 跑经典 PPO:Actor/Critic/Reference/Reward 四模型 + Ray 编排,GSM8K 上用规则奖励(正则 ####)。配套 InstructGPT 三阶段 RLHF 精读。
复演一次 PPO 迭代:Actor 在一道 GSM8K 题上生成 CoT(#### 72),规则奖励给 1.0,Critic 估 value,A=reward−value,Actor/Critic 更新——四个模型角色绕闭环依次点亮。
本地版本说明
四个模型角色、七步闭环、reward 正则(#### …)、step:42 指标(0.296 / 1702 tok/s) 都来自 veRL 课件《LLM RL 强化学习训练入门》。浏览器里不真跑训练。
一次 PPO 迭代(veRL · GSM8K)
复演 veRL 在 Qwen2.5-0.5B 上跑 GSM8K 的 PPO 闭环:四个模型角色(Actor/Reference/Reward/Critic)依次点亮,规则奖励按 #### 答案给 0/1。
四个模型角色(Ray 编排)
FSDP + vLLM · HybridFlow · single H800
GSM8K 题目
Natalia 4 月卖了 48 个发夹,5 月卖了一半。两个月共卖多少?
1. Rollout:Actor 生成 CoT 答案
2. Reward:规则函数打分(正则匹配 ####)
3. Critic:估计 value
4. Advantage:A = reward − value (GAE)
5. Actor 更新(Clipped Objective)
6. Critic 更新((value−reward)²)
reward: extract last 300 chars → /#### (\-?[0-9\.\,]+)/ → 1.0 correct / 0.0 wrong
建议体验
跑一步 PPO,看 Actor → Reward → Critic → Advantage → 更新 依次执行。
注意规则奖励:对 #### 答案做正则,干净地给 1.0 / 0.0。
看四个角色(Actor/Reference/Reward/Critic)在对应阶段点亮。
这个试玩能说明什么
你能在工业级框架(veRL + Ray)上单卡端到端跑经典 RLHF PPO。
你理解奖励设计:可验证任务(数学)用规则奖励,而不是训 RM。
你能把 PPO 放进 RLHF(SFT → RM → PPO),读懂 InstructGPT 源头。
框架
veRL(HybridFlow)· Ray · FSDP + vLLM · Qwen2.5-0.5B on GSM8K
四角色
Actor(策略) · Critic(价值) · Reference(KL) · Reward(规则)
RLHF 源头
InstructGPT:SFT → RM → PPO;1.3B 在偏好上打败 175B GPT-3