返回案例页
GSPO 训练步骤复演

Qwen3-VL 视觉强化学习实战(Unsloth + GSPO)

单张消费级 GPU 上用 Unsloth + GSPO 对 Qwen3-VL 8B 做视觉强化学习,在 MathVista 看图解数学题上优化推理格式与数值答案,格式合规率从 77% 提到 84%。

一个真实的奖励计算器,不是预演。编辑 VLM completion 和 gold 答案,两个真实奖励函数——formatting(λ=0.3,含 addCriterion 惩罚)和 correctness(λ=1.0,精确 2.0 / 数值 1.5)——在你浏览器里实时重算。

Qwen3-VLGSPOUnslothLoRATRLMathVista
Qwen3-VL 视觉强化学习实战(Unsloth + GSPO)

本地版本说明

两个奖励函数是纯字符串逻辑、逐字移植,所以在客户端跑。真实的前后评估(准确率 5%→6%、格式 77%→84%)来自项目自己的 records。

实时 · 在你浏览器里运行

GSPO 奖励计算器 — 真实的 2 个函数

编辑 VLM completion 和 gold 答案。格式奖励(λ=0.3,含真实 addCriterion 惩罚)和正确性奖励(λ=1.0,精确 2.0 / 数值 1.5 / 否则 0)——从 notebook 逐字移植——实时重算。这正是每条采样 completion 在 GSPO 更新前得到的奖励。

预设示例

Gold 答案

VLM completion(可编辑)

总奖励

2.60

0.3 · format + 1.0 · correctness

formatting · λ=0.30.60
one <REASONING> +1one <SOLUTION> +1
correctness · λ=1.02.00

exact string match "991" → 2.0

注意奖励和评估指标的差异:records 把 991.0 判为错误(严格字符串匹配),但这里它拿 1.5(数值匹配)。 正是这个细节,让格式合规提升(77%→84%)比原始准确率提升更干净。

建议体验

加载一个预设,然后编辑 completion——两个奖励实时更新。

试「数值匹配」预设:991.0 拿到 correctness 1.5,尽管严格评估判它错。

粘贴 addCriterion 乱码,看 formatting 奖励吃到 −2 惩罚。

这个试玩能说明什么

你能跑通现代 LLM-RL 技术栈(TRL 的 GRPO/GSPO),不是教科书 PPO。

你清楚 GSPO 和 GRPO 的区别——序列级重要性采样,一个配置开关。

你给的是可审计记录里的真实前后指标(准确率 5%→6%、格式 77%→84%),不是单一漂亮数字。

技术栈

Unsloth 4bit + LoRA · TRL GRPOTrainer · Qwen3-VL 8B

奖励设计

format(λ=0.3,含 addCriterion 惩罚)+ correctness(λ=1.0)

真实结果

留出评估格式合规率 77% → 84%