多模态视觉大模型(PandaGPT)
ImageBind 把 6 模态(图/文/音/深度/热成像/IMU)绑进同一向量空间,1 个线性投影接到 Vicuna —— PandaGPT 只训图文却涌现理解音频/深度。配套 VPT 视觉提示微调做病理图像下游迁移。
选若干模态,看 PandaGPT 推理:ImageBind 编码进同一向量空间,线性投影接到 Vicuna,吐回答——用到非图文模态时标注「涌现」。
本地版本说明
6 模态、ImageBind(冻结)+1 线性投影+Vicuna 架构、涌现的跨模态能力都来自智魔课程 PandaGPT 实战源码与 ImageBind 论文(Meta, CVPR 2023)。浏览器里不真跑模型。
六种模态绑进一个 LLM(PandaGPT)
ImageBind 把 6 种模态对齐到同一向量空间,一个线性投影接到 Vicuna —— PandaGPT 只训练图文对,却能涌现地理解音频/深度等。
ImageBind · 6 模态(点击增减)
多模态输入
🏖️ 海滩照片 + 🌊 海浪音频 + 问题:“画面里在发生什么?你听到了什么?”
架构
modalities → ImageBind (frozen, 1024) → linear proj 1024→4096 → 1 soft token → LoRA-Vicuna-7B → text
建议体验
开关 音频/深度/热成像/IMU,再运行推理。
看 ImageBind 把选中模态绑进同一空间 → 投影 → Vicuna。
注意:用音频(PandaGPT 没训过)也能work——标注为「涌现」。
这个试玩能说明什么
你能用「组合」造多模态模型(ImageBind + 投影 + LLM),而不是从头训。
你理解涌现:一个共享嵌入空间让图文训练泛化到音频/深度。
你掌握高效迁移(VPT 视觉提示微调)用于病理等垂直领域。
骨架
ImageBind(6 模态,冻结)+ Vicuna + 1 个线性投影
脉络
ImageBind · InternVL · Gemini(课程精读论文)
高效迁移
VPT(视觉提示微调)在冻结 ViT 上 → 病理下游迁移