Human Avatar — 阿里云 AI 视频 & 语音生成

能力总览

能力	脚本	模型/接口	Region	简介
LivePortrait	INLINECODE0	INLINECODE1	cn-beijing	人像图 + 音频/视频 → 口播动态视频，两步流程
EMO

快速选择指南

CODEBLOCK0

环境配置

CODEBLOCK1

CODEBLOCK2

⚠️ cn-beijing 和新加坡地域的 API Key 不互通，请确认使用正确地域的 Key。
OSS_ENDPOINT 支持带或不带 https:// 前缀，脚本自动规范化。

1. LivePortrait — 人像口播视频

适用场景：有人物照片 + 语音内容，快速生成人物说话视频。

流程：
CODEBLOCK3

图片要求：单人正面肖像，人脸清晰，无遮挡
音频要求：wav/mp3，< 15MB，1s ~ 3min
视频输入：自动提取音频（ffmpeg）

CODEBLOCK4

动作模板：

- normal（默认，适中动作）
INLINECODE16（平静，适合新闻播报/讲故事）
INLINECODE17（活泼，适合演唱/活动主持）

2. Qwen TTS — 文字转语音

适用场景：需要从文字生成语音文件（配合 LivePortrait、EMO 等使用）。

默认模型：INLINECODE18

场景自动选模型

场景 INLINECODE19	推荐模型	推荐音色
INLINECODE20 / INLINECODE21	INLINECODE22	Cherry
INLINECODE23 / `documentary` / INLINECODE25

可用音色

音色	特点
INLINECODE37	活泼甜美女声，广告/有声书/配音
INLINECODE38

CODEBLOCK5

3. T2I 文生图 — 万相2.x

适用场景：根据文字描述生成高质量图片（可后续接 I2V 生成视频）。

CODEBLOCK6

模型选型：

- wan2.2-t2i-flash（默认，快速，适合测试）
INLINECODE46（质量更高）
INLINECODE47（最新，支持更宽高比，同步调用）

常用尺寸：1280*1280（1:1）/ 960*1696（9:16 竖版）/ 1696*960（16:9 横版）

4. I2V 图生视频 — 万相2.x

适用场景：将图片生成为动态视频，支持从文字一条龙到视频。

CODEBLOCK7

模型选型：

- wan2.6-i2v-flash（默认，含音效，支持5/10s）
INLINECODE52（高质量预览版）
INLINECODE53（无声，较快）

5. AA AnimateAnyone — 全身动画

适用场景：有人物全身照 + 参考动作视频，生成人物跳舞/动作视频。

要求：

- 图片：单人全身正面，头到脚完整，宽高比 0.5~2.0
视频：全身入镜，首帧开始即全身可见，mp4/avi/mov，fps≥24，2~60s

三步流程：
CODEBLOCK8

CODEBLOCK9

格式自动转换：视频 webm/mkv/flv → mp4；图片 webp/heic → jpg；fps<24 → 24fps

6. EMO — 人像口播（旧版）

注意：推荐优先使用 LivePortrait，EMO 适合对口型精度要求高的场景。

CODEBLOCK10

7. 灵眸数字人 — 企业级模板视频

适用场景：企业数字人播报、模板化新闻视频、上传人物图片并结合口播脚本生成模板播报视频。

新工作流（优先无 `template_id`）

- 若用户给了 template_id：直接使用该模板生成
若用户没给 template_id：

1. 先列出账号下已有播报模板 2. 如果有模板，随机选择一个模板来创作 3. 如果没有模板，再尝试获取公共模板并复制最多 3 个公共模板到当前账号 4. 从复制结果里随机选择一个继续生成

- 但要注意：公共模板复制成功后，复制出的模板不一定立刻就是“可直接生成视频”的成熟模板；有些复制结果仍是草稿，可能缺少有效片段、素材或变量绑定，需要在灵眸侧补完
若用户只给了图片和“做个口播视频”的要求，但没有明确脚本：先向用户确认口播文案，再继续生成

当前脚本能力

INLINECODE57 现在支持：

- --list-templates：列出账号下已有模板
INLINECODE59：列出公共模板（SDK 1.7.0+）
INLINECODE60：复制最多 3 个公共模板（SDK 1.7.0+）
不传 --template-id：随机选择一个已有模板
当本地模板为空时：自动尝试复制公共模板作为兜底
INLINECODE62：查看模板详情与可替换变量
自动把输入文案填入模板里的 text 变量（优先 text_content / test_text）
当公共模板复制后直接生成失败时，明确报错提示用户该模板仍需完善，而不是静默失败

CODEBLOCK11

对话式使用约定

当用户说：

- “用这张图做一个口播视频”
“帮我做个数字人口播”
“上传图片，做个播报视频”

按下面流程执行：

1. 判断用户是否已经给出可直接播报的文案/脚本
如果没有，就先追问一句：“口播的具体文案是什么？你也可以只给我要点，我来帮你整理成适合播报的脚本。”
拿到脚本后，调用灵眸流程：优先随机已有模板；无本地模板时再尝试公共模板复制
如果用户上传了人物图片，但当前模板式灵眸接口并不需要该图片，明确告诉用户：这一路径主要依赖模板；若要强制使用用户图片做人像口播，应改走 LivePortrait / EMO

API 参考文档

- LivePortrait: https://help.aliyun.com/zh/model-studio/liveportrait-api
EMO (emo-detect + emo-v1): references/emo-api.md
AA (Animate Anyone): references/aa-api.md
T2I (文生图V2): https://help.aliyun.com/zh/model-studio/text-to-image-v2-api-reference
I2V (图生视频): https://help.aliyun.com/zh/model-studio/image-to-video-api-reference/
Qwen TTS: https://help.aliyun.com/zh/model-studio/qwen-tts-realtime
灵眸 (LingMou): references/lingmou-api.md
OSS 上传: references/oss-upload.md

Human Avatar — 阿里云 AI 视频 & 语音生成

能力总览

能力	脚本	模型/接口	Region	简介
LivePortrait	liveportrait.py	liveportrait	cn-beijing	人像图 + 音频/视频 → 口播动态视频，两步流程
EMO

快速选择指南

需要人像说话（有现成音频/视频） → LivePortrait
需要人像说话（无音频，先生成语音） → Qwen TTS → LivePortrait
需要全身跳舞/动作 → AA (AnimateAnyone)
需要根据文字生成图片 → T2I (texttoimage)
需要根据图片生成视频 → I2V (imagetovideo)
需要从零文字到视频（一条龙） → T2I → I2V（imagetovideo --t2i-prompt）
需要企业数字人/模板播报 → 灵眸 (avatar_video)

环境配置

bash
pip install requests dashscope oss2 scipy numpy

灵眸额外:

pip install alibabacloud-lingmou20250527 alibabacloud-tea-openapi

bash
export DASHSCOPEAPIKEY=sk-xxxx # 北京地域 API Key
export ALIBABACLOUDACCESSKEYID=xxx # OSS 上传用
export ALIBABACLOUDACCESSKEYSECRET=xxx
export OSS_BUCKET=your-bucket
export OSS_ENDPOINT=oss-cn-beijing.aliyuncs.com

⚠️ cn-beijing 和新加坡地域的 API Key 不互通，请确认使用正确地域的 Key。
OSS_ENDPOINT 支持带或不带 https:// 前缀，脚本自动规范化。

1. LivePortrait — 人像口播视频

适用场景：有人物照片 + 语音内容，快速生成人物说话视频。

流程：

Step 1: liveportrait-detect (同步) → pass=true
↓
Step 2: liveportrait (异步) → video_url

图片要求：单人正面肖像，人脸清晰，无遮挡
音频要求：wav/mp3，< 15MB，1s ~ 3min
视频输入：自动提取音频（ffmpeg）

bash

图片 + 音频文件

python scripts/live_portrait.py \
--image ./portrait.jpg \
--audio ./speech.mp3 \
--template normal --download

图片 + 视频（自动提取音频）

python scripts/live_portrait.py \ --image ./portrait.jpg \ --video ./speech_video.mp4 \ --template active --download

直接用公网 URL

python scripts/live_portrait.py \ --image-url https://... \ --audio-url https://... \ --mouth-strength 1.2 --download

动作模板：

- normal（默认，适中动作）
calm（平静，适合新闻播报/讲故事）
active（活泼，适合演唱/活动主持）

2. Qwen TTS — 文字转语音

适用场景：需要从文字生成语音文件（配合 LivePortrait、EMO 等使用）。

默认模型：qwen3-tts-vd-realtime-2026-01-15

场景自动选模型

场景 --scene	推荐模型	推荐音色
default / brand	qwen3-tts-vd-realtime-2026-01-15	Cherry
news / documentary / advertising

可用音色

音色	特点
Cherry	活泼甜美女声，广告/有声书/配音
Serena

bash

默认生成（qwen3-tts-vd-realtime + Cherry）

python scripts/qwen_tts.py --text 你好，欢迎使用千问语音 --download

按场景自动匹配

python scripts/qwen_tts.py --text 今日股市... --scene news --download python scripts/qwen_tts.py --text 从前有个... --scene audiobook --download

指令控制语气/风格

python scripts/qwen_tts.py \ --text 亲爱的同学们... \ --model qwen3-tts-instruct-flash-realtime \ --instructions 语调温和，节奏平稳，适合教学场景 \ --download

查看所有选项

python scripts/qwen_tts.py --list-voices python scripts/qwen_tts.py --list-models

3. T2I 文生图 — 万相2.x

适用场景：根据文字描述生成高质量图片（可后续接 I2V 生成视频）。

bash

默认模型（wan2.2-t2i-flash，快速）

python scripts/texttoimage.py \
--prompt 一位穿汉服的女性站在桃花林中，电影感，4K，柔和光线 \
--size 960*1696 --download

高质量模型

python scripts/texttoimage.py \ --prompt ... --model wan2.2-t2i-plus --size 1280*1280 --download

本地图片 → 视频

python scripts/imagetovideo.py \
--image ./portrait.jpg \
--prompt 她缓缓

human-avatar人像数字人

human-avatar

Human Avatar — 阿里云 AI 视频 & 语音生成

能力总览

快速选择指南

环境配置

1. LivePortrait — 人像口播视频

2. Qwen TTS — 文字转语音

场景自动选模型

可用音色

3. T2I 文生图 — 万相2.x

4. I2V 图生视频 — 万相2.x

5. AA AnimateAnyone — 全身动画

6. EMO — 人像口播（旧版）

7. 灵眸数字人 — 企业级模板视频

新工作流（优先无 template_id）

当前脚本能力

对话式使用约定

API 参考文档

Human Avatar — 阿里云 AI 视频 & 语音生成

能力总览

快速选择指南

环境配置

灵眸额外:

1. LivePortrait — 人像口播视频

图片 + 音频文件

图片 + 视频（自动提取音频）

直接用公网 URL

2. Qwen TTS — 文字转语音

场景自动选模型

可用音色

默认生成（qwen3-tts-vd-realtime + Cherry）

按场景自动匹配

指令控制语气/风格

查看所有选项

3. T2I 文生图 — 万相2.x

默认模型（wan2.2-t2i-flash，快速）

高质量模型

最新模型（万相2.6）

4. I2V 图生视频 — 万相2.x

本地图片 → 视频

标签

通过对话安装

方式一：安装 SkillHub 和技能

方式二：设置 SkillHub 为优先技能安装源

通过命令行安装

下载

相关推荐

self-improvement

self-improvement

self-improvement

self-improvement

新工作流（优先无 `template_id`）