返回案例页
微调前后对比

多模态模型微调(中文图表 VQA)

LlamaFactory + 中文图表数据集 zh.train,把通用 VLM 微调成能读懂中文柱状/折线/饼图并回答问题的垂直模型。数据构造工具是配套 React + FastAPI 项目。

同一张中文图表、同一个问题,对比通用 VLM 和 LoRA 微调模型。通用模型读不准中文标签,微调模型给出训练目标里精确的标签 + 数值。

MultimodalLlamaFactoryQwen-VLChart VQAFine-tuning
多模态模型微调(中文图表 VQA)

本地版本说明

微调答案是 llamafactory_train.jsonl 里真实的 assistant 目标;训练命令是真实的 LlamaFactory 设置。浏览器里不跑模型——这样能聚焦最强信号:微调到底修好了什么。

交互预览

微调前 vs 微调后:中文图表问答

同一张中文图表、同一个问题,对比通用 VLM 和用 LlamaFactory 微调过的垂直模型——后者来自 llamafactory_train.jsonl 的真实训练目标。

输入图表(中文标签)

2024 各行业营收(亿元)

156
科技
134
金融
112
制造
88
消费

选一个问题

LlamaFactory 训练设置

--model_name_or_path Qwen2.5-VL-7B-Instruct
--finetuning_type lora  --template qwen2_vl
--dataset chart_vqa_train  --image_resolution 448
--cutoff_len 4096  --lora_rank 16  --lora_alpha 32

当前问题

图中营收最高的行业是哪个?同比增长率多少?

通用 VLM(未微调)

点「两个模型都跑」查看回答。

微调后垂直模型(LoRA)

微调目标来自 llamafactory_train.jsonl 的 assistant 内容。

建议体验

在三个样例问题之间切换,重新跑两个模型。

对比通用模型(含糊、读不准中文标签)和微调模型(标签 + 数值精确)。

看 LlamaFactory 设置——qwen2_vl 模板、448 图像分辨率、LoRA rank 16 / alpha 32。

这个试玩能说明什么

你能端到端跑垂直领域多模态微调,而不只是调 API。

你理解数据构造和训练同等重要——数据生成工具本身是个独立的 React + FastAPI 项目。

你留在 LlamaFactory 生态里,能和 NL2SQL / 函数调用 / Qwen-VL RL 几个项目组合复用。

基座模型

Qwen2.5-VL-7B-Instruct · LoRA(rank 16, alpha 32)· 模板 qwen2_vl

数据

llamafactory_train.jsonl —— 合成中文图表 → 每图 5–10 组 Q&A

最强信号

把领域标签塞进词表的针对性微调