多模态模型微调(中文图表 VQA)
LlamaFactory + 中文图表数据集 zh.train,把通用 VLM 微调成能读懂中文柱状/折线/饼图并回答问题的垂直模型。数据构造工具是配套 React + FastAPI 项目。
同一张中文图表、同一个问题,对比通用 VLM 和 LoRA 微调模型。通用模型读不准中文标签,微调模型给出训练目标里精确的标签 + 数值。
本地版本说明
微调答案是 llamafactory_train.jsonl 里真实的 assistant 目标;训练命令是真实的 LlamaFactory 设置。浏览器里不跑模型——这样能聚焦最强信号:微调到底修好了什么。
微调前 vs 微调后:中文图表问答
同一张中文图表、同一个问题,对比通用 VLM 和用 LlamaFactory 微调过的垂直模型——后者来自 llamafactory_train.jsonl 的真实训练目标。
输入图表(中文标签)
2024 各行业营收(亿元)
选一个问题
LlamaFactory 训练设置
--model_name_or_path Qwen2.5-VL-7B-Instruct --finetuning_type lora --template qwen2_vl --dataset chart_vqa_train --image_resolution 448 --cutoff_len 4096 --lora_rank 16 --lora_alpha 32
当前问题
图中营收最高的行业是哪个?同比增长率多少?
通用 VLM(未微调)
点「两个模型都跑」查看回答。
微调后垂直模型(LoRA)
微调目标来自 llamafactory_train.jsonl 的 assistant 内容。
建议体验
在三个样例问题之间切换,重新跑两个模型。
对比通用模型(含糊、读不准中文标签)和微调模型(标签 + 数值精确)。
看 LlamaFactory 设置——qwen2_vl 模板、448 图像分辨率、LoRA rank 16 / alpha 32。
这个试玩能说明什么
你能端到端跑垂直领域多模态微调,而不只是调 API。
你理解数据构造和训练同等重要——数据生成工具本身是个独立的 React + FastAPI 项目。
你留在 LlamaFactory 生态里,能和 NL2SQL / 函数调用 / Qwen-VL RL 几个项目组合复用。
基座模型
Qwen2.5-VL-7B-Instruct · LoRA(rank 16, alpha 32)· 模板 qwen2_vl
数据
llamafactory_train.jsonl —— 合成中文图表 → 每图 5–10 组 Q&A
最强信号
把领域标签塞进词表的针对性微调