Coze 多模态视频生成 Agent

Coze（扣子）是字节的低代码 Agent 平台。「输入一个选题 brief → 产出成片短视频」这种内容流水线，写长代码反而过度——用节点 workflow 才合理。这是一套真能跑通的 5 workflow 链，从 brief 一路跑到成片视频。

5 个 workflow 协作

工作流合集/
├── Workflow-produce-draft-1308.zip          # 顶层：根据 brief 决定走哪条子流程
├── Workflow-get_produce-draft-1319.zip      # 文案生成：标题 / 分镜 / 旁白
├── Workflow-create_image-draft-1329.zip     # 图片生成：每个分镜对应一张图
├── Workflow-create_video-draft-1324.zip     # 视频生成：分镜图 + 旁白 → 视频片段
└── Workflow-get_video-draft-1314.zip        # 视频合并：所有片段拼成成片

每个 workflow 是一个 Coze 导出的 JSON/YAML 包——别人导入到自己的 Coze 工作空间就能用。

数据流

输入：「关于深圳早高峰地铁的 60 秒短视频」
  │
  ▼
[produce]               主控 workflow 接 brief
  │
  ├──▶ [get_produce]    文案生成：
  │      ├─ 标题       「8 点的深圳地铁，是什么样子？」
  │      ├─ 6 个分镜   「拥挤的车厢 / 紧握扶手的手 / 站台上的奔跑 …」
  │      └─ 旁白       每个分镜对应 1-2 句旁白
  │
  ├──▶ [create_image]   对每个分镜调图生模型（MidJourney / 即梦 / 文心一格）
  │      └─ 返回 6 张图
  │
  ├──▶ [create_video]   对每张图 + 对应旁白调视频生成模型（即梦 / 可灵）
  │      └─ 返回 6 个 ~10s 视频片段
  │
  └──▶ [get_video]      ffmpeg 合并 6 个片段 + 背景音乐 + 字幕
         └─ 输出：1 个完整短视频

关键设计：workflow 拆开是有道理的

不是把 5 个步骤塞进一个超大 workflow——拆开是为了：

独立失败：图生失败时只重跑 create_image，不重新生文案
独立替换：想从 MidJourney 换成即梦？只动 create_image，其他不动
独立 cache：跑过一次的文案不需要重生成，直接复用
独立调试：每个 workflow 可以单独触发，独立看日志

为什么用 Coze 不用 LangChain / Dify

3 个平台都能做，但场景不同：

平台	长代码可行性	适合场景
Coze (扣子)	几乎不需要	内容生产流水线：图生 / 视频生 / 多模态调用都是平台内置插件
Dify	偶尔需要 code 节点	知识库 / 长文 / 复杂分支的对话型 Agent
LangChain	全是代码	自定义工具 / 自托管模型 / 不可低代码的逻辑

Coze 的杀手锏是字节系图生 / 视频生模型内置成插件，不用自己接 API key、不用管 rate limit、不用付国际信用卡——对内容创作场景大幅省事。

价值点

知道什么时候用低代码平台：内容生产流水线不需要写长代码
能设计模块化 workflow：按能力拆分，按 ID 引用组合
能在 Coze / Dify / LangChain 之间挑对工具：内容选 Coze、对话选 Dify、自定义选 LangChain

Demo strategy

Demo 真实材料对应

互动 Demo 在「深圳早高峰地铁 60s」样例选题上复演 5 个 workflow 接力：produce 分发 → get_produce 出标题 + 6 分镜 + 旁白 → create_image 逐镜生图 → create_video 逐镜生片段 → get_video 合并成片。5 个 .zip（带 draft ID）来自案例10 工作流合集，浏览器里不真跑图生/视频模型。

Public preview can be enabled later without redesigning the case-study layout