数字人生成

功能

1. 创建数字人形象：从描述或照片生成数字人
声纹克隆（可选）：上传音频样本 → 克隆声纹
生成口播视频：数字人 + 台词/音频 → 口播视频片段

语音来源选项

方式	说明	推荐场景
平台内置 TTS	用平台预设声音	快速测试
上传音频

推荐：优先用平台自带的声纹克隆，保持后端一致性。

⚠️ 重要：后端一致性原则

同一个数字人项目必须全程使用同一个后端！

- 可灵的 avatar_id 和即梦的不互通
即梦创建的形象，可灵用不了，反之亦然
选定后端后，从创建形象到生成口播都用同一个

支持的后端

后端	数字人	口播	声纹克隆	特点
Kling 可灵	✓	✓	✓	质量高，国产首选
Jimeng 即梦

✓ | ✓ | ✓ | 快，中文口型好，剪映生态 | | HeyGen | ✓ | ✓ | ✓ | 模板丰富，出海/英文 | | D-ID | ✓ | ✓ | - | 简单快速 | | Synthesia | ✓ | ✓ | ✓ | 企业级，多语言 |

推荐：国内项目优先用可灵或即梦，二选一后全程使用。

工作流程

流程 A：创建数字人

输入: 形象描述 / 真人照片
↓
选择后端
↓
调用 API 生成
↓
输出: avatar_id + 预览图

流程 B：生成口播视频

输入: avatar_id + 台词文本/音频
↓
调用后端口播 API
↓
等待渲染
↓
输出: 视频文件 URL

输入参数

创建数字人

参数	必填	说明
mode	✓	create
backend

声纹克隆（可选）

参数	必填	说明
mode	✓	voice_clone
backend

输出：voice_id，后续生成口播时使用。

生成口播视频

参数	必填	说明
mode	✓	generate
backend

输出格式

创建数字人

yaml
avatar:
id: avatar_abc123
backend: jimeng
preview_url: https://...
style: realistic
created_at: 2024-01-01T00:00:00Z

生成口播视频

yaml
video:
id: video_xyz789
avatarid: avatarabc123
url: https://...
duration: 15.5
status: completed

后端配置

在 openclaw.json 中配置（只需配置你选用的后端）：

Kling 可灵（推荐）

json
{
kling: {
accesskey: youraccess_key,
secretkey: yoursecret_key
}
}

Jimeng 即梦

json
{
jimeng: {
api_key: ak-xxxxxxxx
}
}

HeyGen

json
{
heygen: {
api_key: xxx
}
}

详见 references/backend-setup.md

使用示例

从描述创建

用户：帮我创建一个数字人，25岁左右的职业女性，干练短发

执行：

1. mode=create, description=25岁职业女性，干练短发, style=realistic
调用 Jimeng API
返回 avatar_id

从照片创建

用户：用这张照片创建数字人 [附图]

执行：

1. mode=create, photo=<图片路径>
调用 API 上传照片
返回 avatar_id

生成口播

用户：用 avatar_abc123 说这段话：大家好，今天教大家...

执行：

1. mode=generate, avatarid=avatarabc123, text=大家好...
调用口播 API
等待渲染完成
返回视频 URL

与上下游对接

上游：video-script-generator 输出的 narration 字段

下游：scene-video-generator / video-stitcher 消费口播视频

注意事项

1. 真人照片需获得授权
商用需确认后端的版权协议
口播视频渲染可能需要 1-5 分钟
建议缓存 avatar_id 避免重复创建

digital-avatar数字人生成

digital-avatar

数字人生成

功能

语音来源选项

⚠️ 重要：后端一致性原则

支持的后端