微调前后对比

多模态模型微调（中文图表 VQA）

LlamaFactory + 中文图表数据集 zh.train，把通用 VLM 微调成能读懂中文柱状/折线/饼图并回答问题的垂直模型。数据构造工具是配套 React + FastAPI 项目。

同一张中文图表、同一个问题，对比通用 VLM 和 LoRA 微调模型。通用模型读不准中文标签，微调模型给出训练目标里精确的标签 + 数值。

MultimodalLlamaFactoryQwen-VLChart VQAFine-tuning

案例拆解源码

本地版本说明

微调答案是 llamafactory_train.jsonl 里真实的 assistant 目标；训练命令是真实的 LlamaFactory 设置。浏览器里不跑模型——这样能聚焦最强信号：微调到底修好了什么。

交互预览

微调前 vs 微调后：中文图表问答

同一张中文图表、同一个问题，对比通用 VLM 和用 LlamaFactory 微调过的垂直模型——后者来自 llamafactory_train.jsonl 的真实训练目标。

输入图表（中文标签）

2024 各行业营收（亿元）

156

科技

134

金融

112

制造

消费

选一个问题

LlamaFactory 训练设置

--model_name_or_path Qwen2.5-VL-7B-Instruct
--finetuning_type lora  --template qwen2_vl
--dataset chart_vqa_train  --image_resolution 448
--cutoff_len 4096  --lora_rank 16  --lora_alpha 32

当前问题

图中营收最高的行业是哪个？同比增长率多少？

通用 VLM（未微调）

点「两个模型都跑」查看回答。

微调后垂直模型（LoRA）

微调目标来自 llamafactory_train.jsonl 的 assistant 内容。

建议体验

在三个样例问题之间切换，重新跑两个模型。

对比通用模型（含糊、读不准中文标签）和微调模型（标签 + 数值精确）。

看 LlamaFactory 设置——qwen2_vl 模板、448 图像分辨率、LoRA rank 16 / alpha 32。

这个试玩能说明什么

你能端到端跑垂直领域多模态微调，而不只是调 API。

你理解数据构造和训练同等重要——数据生成工具本身是个独立的 React + FastAPI 项目。

你留在 LlamaFactory 生态里，能和 NL2SQL / 函数调用 / Qwen-VL RL 几个项目组合复用。

基座模型

Qwen2.5-VL-7B-Instruct · LoRA（rank 16, alpha 32）· 模板 qwen2_vl

数据

llamafactory_train.jsonl —— 合成中文图表 → 每图 5–10 组 Q&A

最强信号

把领域标签塞进词表的针对性微调

返回案例页