GSPO 训练步骤复演

Qwen3-VL 视觉强化学习实战（Unsloth + GSPO）

单张消费级 GPU 上用 Unsloth + GSPO 对 Qwen3-VL 8B 做视觉强化学习，在 MathVista 看图解数学题上优化推理格式与数值答案，格式合规率从 77% 提到 84%。

一个真实的奖励计算器，不是预演。编辑 VLM completion 和 gold 答案，两个真实奖励函数——formatting（λ=0.3，含 addCriterion 惩罚）和 correctness（λ=1.0，精确 2.0 / 数值 1.5）——在你浏览器里实时重算。

Qwen3-VLGSPOUnslothLoRATRLMathVista

案例拆解源码

本地版本说明

两个奖励函数是纯字符串逻辑、逐字移植，所以在客户端跑。真实的前后评估（准确率 5%→6%、格式 77%→84%）来自项目自己的 records。

实时 · 在你浏览器里运行

GSPO 奖励计算器 — 真实的 2 个函数

编辑 VLM completion 和 gold 答案。格式奖励（λ=0.3，含真实 addCriterion 惩罚）和正确性奖励（λ=1.0，精确 2.0 / 数值 1.5 / 否则 0）——从 notebook 逐字移植——实时重算。这正是每条采样 completion 在 GSPO 更新前得到的奖励。

预设示例

Gold 答案

VLM completion（可编辑）

总奖励

2.60

0.3 · format + 1.0 · correctness

formatting · λ=0.30.60

one <REASONING> +1one <SOLUTION> +1

correctness · λ=1.02.00

exact string match "991" → 2.0

注意奖励和评估指标的差异：records 把 991.0 判为错误（严格字符串匹配），但这里它拿 1.5（数值匹配）。正是这个细节，让格式合规提升（77%→84%）比原始准确率提升更干净。

建议体验

加载一个预设，然后编辑 completion——两个奖励实时更新。

试「数值匹配」预设：991.0 拿到 correctness 1.5，尽管严格评估判它错。

粘贴 addCriterion 乱码，看 formatting 奖励吃到 −2 惩罚。

这个试玩能说明什么

你能跑通现代 LLM-RL 技术栈（TRL 的 GRPO/GSPO），不是教科书 PPO。

你清楚 GSPO 和 GRPO 的区别——序列级重要性采样，一个配置开关。

你给的是可审计记录里的真实前后指标（准确率 5%→6%、格式 77%→84%），不是单一漂亮数字。

技术栈

Unsloth 4bit + LoRA · TRL GRPOTrainer · Qwen3-VL 8B

奖励设计

format（λ=0.3，含 addCriterion 惩罚）+ correctness（λ=1.0）

真实结果

留出评估格式合规率 77% → 84%

返回案例页