分镜视频生成
功能
将分镜描述转换为 AI 场景视频(不含数字人):
⚠️ 与 digital-avatar 的分工
| 需求 | 用哪个 skill |
|---|
| 数字人口播视频 | → INLINECODE0 |
| 纯 AI 场景(无人/路人/产品展示等) |
→
scene-video-generator(本 skill)|
数字人相关的视频生成请用 digital-avatar skill,确保后端一致性。
支持的后端
| 后端 | 特点 | 时长限制 | 适用场景 |
|---|
| Jimeng 即梦 | 国内,快,中文理解好 | 5s | 国内平台 |
| Kling 可灵 |
国内,质量高 | 5-10s | 高质量需求 |
| Runway | 国际,Gen-3 质量顶级 | 5-10s | 高端制作 |
| Pika | 快速,风格化强 | 3-5s | 风格化内容 |
| Vidu | 国内,性价比高 | 4-8s | 一般需求 |
默认使用 Jimeng(如已配置)。
输入参数
| 参数 | 必填 | 说明 |
|---|
| backend | - | jimeng / kling / runway / pika / vidu |
| prompt |
✓ | 场景描述(英文效果更好)|
| duration | - | 目标时长(秒)|
| aspect_ratio | - | 16:9 / 9:16 / 1:1 |
| reference_image | - | 参考图(图生视频)|
| style | - | realistic / anime / cinematic |
| motion | - | low / medium / high |
| seed | - | 随机种子(复现用)|
输出格式
CODEBLOCK0
工作流程
流程 A:纯 AI 生成
CODEBLOCK1
流程 B:图生视频
CODEBLOCK2
💡 需要数字人口播? 请使用 digital-avatar skill。
Prompt 优化技巧
结构
CODEBLOCK3
示例
CODEBLOCK4
镜头术语
medium shot | 半身 |
| 全景 | wide shot | 全身+环境 |
| 跟拍 | tracking shot | 跟随移动 |
| 推镜 | dolly in | 推进 |
| 拉镜 | dolly out | 拉远 |
详见 references/prompt-guide.md
使用示例
生成场景
CODEBLOCK5
批量生成分镜
CODEBLOCK6
与上下游对接
上游输入:
- -
video-script-generator 的 scenes[].shot_description(非口播场景)
下游输出:
并行 skill:
- -
digital-avatar 负责口播场景视频 - 本 skill 负责 AI 场景视频
- 两者输出都汇入 INLINECODE7
注意事项
- 1. 不同后端对 prompt 长度有限制(通常 500 字符内)
- 复杂动作/多人场景效果不稳定
- 建议先小批量测试再批量生成
- 保存 seed 以便复现满意的结果
- 渲染时间可能较长,使用异步处理
分镜视频生成
功能
将分镜描述转换为 AI 场景视频(不含数字人):
⚠️ 与 digital-avatar 的分工
| 需求 | 用哪个 skill |
|---|
| 数字人口播视频 | → digital-avatar |
| 纯 AI 场景(无人/路人/产品展示等) |
→ scene-video-generator(本 skill)|
数字人相关的视频生成请用 digital-avatar skill,确保后端一致性。
支持的后端
| 后端 | 特点 | 时长限制 | 适用场景 |
|---|
| Jimeng 即梦 | 国内,快,中文理解好 | 5s | 国内平台 |
| Kling 可灵 |
国内,质量高 | 5-10s | 高质量需求 |
| Runway | 国际,Gen-3 质量顶级 | 5-10s | 高端制作 |
| Pika | 快速,风格化强 | 3-5s | 风格化内容 |
| Vidu | 国内,性价比高 | 4-8s | 一般需求 |
默认使用 Jimeng(如已配置)。
输入参数
| 参数 | 必填 | 说明 |
|---|
| backend | - | jimeng / kling / runway / pika / vidu |
| prompt |
✓ | 场景描述(英文效果更好)|
| duration | - | 目标时长(秒)|
| aspect_ratio | - | 16:9 / 9:16 / 1:1 |
| reference_image | - | 参考图(图生视频)|
| style | - | realistic / anime / cinematic |
| motion | - | low / medium / high |
| seed | - | 随机种子(复现用)|
输出格式
yaml
video:
id: scene_001
backend: kling
url: https://...
duration: 5.0
resolution: 1920x1080
aspect_ratio: 16:9
prompt: 原始 prompt
seed: 12345
status: completed
工作流程
流程 A:纯 AI 生成
输入: prompt + 参数
↓
翻译/优化 prompt(如需要)
↓
调用后端 API
↓
等待渲染(30s-3min)
↓
输出: 视频 URL
流程 B:图生视频
输入: reference_image + prompt
↓
上传参考图
↓
调用 image-to-video API
↓
输出: 视频 URL
💡 需要数字人口播? 请使用 digital-avatar skill。
Prompt 优化技巧
结构
[主体] + [动作] + [场景] + [镜头] + [风格]
示例
原始:女生在办公室看电脑
优化:A young professional woman sitting at a modern office desk,
looking at computer screen with focused expression,
soft natural lighting from window,
medium shot, shallow depth of field,
cinematic color grading
镜头术语
medium shot | 半身 |
| 全景 | wide shot | 全身+环境 |
| 跟拍 | tracking shot | 跟随移动 |
| 推镜 | dolly in | 推进 |
| 拉镜 | dolly out | 拉远 |
详见 references/prompt-guide.md
使用示例
生成场景
用户:生成一个5秒的视频,内容是:一个人在咖啡厅用笔记本工作
执行:
- 1. 优化 prompt
- 调用 Kling API
- 等待渲染
- 返回视频 URL
批量生成分镜
用户:根据这个分镜列表生成视频 [附 YAML]
执行:
- 1. 解析分镜列表
- 逐个生成(或并行)
- 返回视频列表
与上下游对接
上游输入:
- - video-script-generator 的 scenes[].shot_description(非口播场景)
下游输出:
并行 skill:
- - digital-avatar 负责口播场景视频
- 本 skill 负责 AI 场景视频
- 两者输出都汇入 video-stitcher
注意事项
- 1. 不同后端对 prompt 长度有限制(通常 500 字符内)
- 复杂动作/多人场景效果不稳定
- 建议先小批量测试再批量生成
- 保存 seed 以便复现满意的结果
- 渲染时间可能较长,使用异步处理