返回顶部
v

voice-clone-tts声纹克隆合成

声纹克隆和语音合成。上传音频样本克隆声纹,用克隆声纹或预设声纹生成语音。支持多个后端:MiniMax、ElevenLabs、Fish Audio、Azure TTS、OpenAI TTS。支持情绪控制、语速调整、批量生成。触发词:语音合成、TTS、声纹克隆、voice clone、text to speech、配音、旁白。

作者: admin | 来源: ClawHub
源自
ClawHub
版本
V 1.0.0
安全检测
已通过
164
下载量
免费
免费
0
收藏
概述
安装方式
版本历史

voice-clone-tts

声纹克隆 & 语音合成

何时使用此 Skill

场景是否需要此 Skill
数字人平台支持声纹克隆(可灵/即梦/HeyGen)不需要,直接在 digital-avatar 里处理
数字人平台不支持声纹克隆
需要,生成音频后上传 | | 纯音频输出(播客/有声书)| 需要 | | 需要更精细的语音控制 | 可选,MiniMax/ElevenLabs 控制更细 |

推荐:优先用数字人平台自带的声纹克隆,保持后端一致性。



功能

  1. 1. 声纹克隆:上传音频样本 → 生成声纹 ID
  2. 语音合成:文本 + 声纹 → 音频文件
  3. 批量生成:分镜列表 → 多个音频文件

支持的后端

后端克隆情绪多语言特点
MiniMax中/英国内快,中文好
ElevenLabs
✓ | ✓ | 30+ | 质量顶级 | | Fish Audio | ✓ | - | 中/英/日 | 开源,便宜 | | Azure TTS | - | ✓ | 100+ | 稳定,多语言 | | OpenAI TTS | - | - | 多语言 | 简单快速 |

默认使用 MiniMax(如已配置)。

工作流程

流程 A:声纹克隆

输入: 音频样本(10s-5min)

上传到后端

等待训练(即时-几分钟)

输出: voice_id

流程 B:语音合成

输入: text + voice_id + 参数

调用 TTS API

输出: 音频文件

流程 C:批量生成

输入: scenes[] + voice_id

逐条生成(或并行)

输出: 音频文件列表

输入参数

声纹克隆

参数必填说明
modeclone
backend
- | minimax / elevenlabs / fish | | audio_sample | ✓ | 音频文件路径(10s-5min)| | name | - | 声纹名称 | | description | - | 声纹描述 |

语音合成

参数必填说明
modesynthesize
backend
- | 同上 + azure / openai | | text | ✓ | 要合成的文本 | | voice_id | ✓ | 声纹 ID 或预设名 | | output | - | 输出路径 | | speed | - | 语速 0.5-2.0(默认1.0)| | emotion | - | 情绪(见下表)| | pitch | - | 音调调整 | | format | - | mp3 / wav / ogg |

批量生成

参数必填说明
modebatch
backend
- | 同上 | | scenes | ✓ | 分镜列表(含台词)| | voice_id | ✓ | 声纹 ID | | output_dir | - | 输出目录 |

情绪控制

情绪英文适用场景
neutralneutral默认/旁白
happy
happy | 轻松/种草 | | sad | sad | 共情/痛点 | | angry | angry | 吐槽/愤怒 | | excited | excited | 惊喜/CTA | | serious | serious | 专业/严肃 | | whisper | whisper | 悄悄话/ASMR |

输入格式(批量)

yaml
mode: batch
voiceid: voiceabc123
backend: minimax

scenes:
- id: 1
text: 你是不是也遇到过这样的问题?
emotion: neutral
speed: 1.0

- id: 2
text: 每次做 PPT 都要花好几个小时...
emotion: sad
speed: 0.9

- id: 3
text: 现在只需要 30 秒!
emotion: excited
speed: 1.1

- id: 4
text: 链接在评论区,快去试试吧
emotion: happy
speed: 1.0

outputdir: ./audiooutput/
format: mp3

输出格式

声纹克隆

yaml
voice:
id: voice_abc123
backend: minimax
name: 我的声音
status: ready
created_at: 2024-01-01T00:00:00Z

语音合成

yaml
audio:
path: ./output/scene_01.mp3
duration: 3.5
format: mp3
sample_rate: 44100

批量生成

yaml
audios:
- id: 1
path: ./audiooutput/scene01.mp3
duration: 2.8

- id: 2
path: ./audiooutput/scene02.mp3
duration: 4.2

- id: 3
path: ./audiooutput/scene03.mp3
duration: 2.1

- id: 4
path: ./audiooutput/scene04.mp3
duration: 3.0

total_duration: 12.1

后端配置

详见 references/backend-setup.md

音频样本要求

声纹克隆最佳实践

项目要求
时长30s-3min(最佳1-2min)
格式
mp3 / wav / m4a | | 采样率 | ≥16kHz | | 内容 | 清晰朗读,无背景噪音 | | 情绪 | 自然平稳,不要太夸张 |

提高克隆质量

  1. 1. 安静环境录制
  2. 保持语速稳定
  3. 内容覆盖常用音节
  4. 避免口水音/换气声
  5. 使用高质量麦克风

使用示例

克隆声纹

用户:用这段音频克隆我的声音 [附音频]

执行:

  1. 1. mode=clone, audiosample=<音频路径>
  2. 上传到 MiniMax
  3. 返回 voiceid

单条合成

用户:用 voice_abc123 合成这句话:大家好,欢迎来到我的频道

执行:

  1. 1. mode=synthesize, voiceid=voiceabc123, text=...
  2. 调用 TTS API
  3. 返回音频文件

批量合成分镜

用户:根据这个分镜列表生成配音 [附 YAML]

执行:

  1. 1. 解析 scenes 列表
  2. 逐条调用 TTS
  3. 返回音频列表 + 总时长

与上下游对接

上游:video-script-generator 的 scenes[].narration

下游

  • - digital-avatar:音频输入生成口播
  • scene-video-generator:音频轨道
  • video-stitcher:音频合并

Pipeline 集成

yaml

video-script-generator 输出


scenes:
- id: 1
narration: 你是不是也...
duration: 3s

自动提取 narration → voice-clone-tts

输出音频 → digital-avatar / video-stitcher

注意事项

  1. 1. 声纹克隆需遵守各平台使用条款
  2. 不要用他人声音做误导性内容
  3. 商用需确认版权协议
  4. 批量生成建议控制并发,避免 rate limit
  5. 保存 voice_id,避免重复克隆

标签

skill ai

通过对话安装

该技能支持在以下平台通过对话安装:

OpenClaw WorkBuddy QClaw Kimi Claude

方式一:安装 SkillHub 和技能

帮我安装 SkillHub 和 voice-clone-tts-1776094502 技能

方式二:设置 SkillHub 为优先技能安装源

设置 SkillHub 为我的优先技能安装源,然后帮我安装 voice-clone-tts-1776094502 技能

通过命令行安装

skillhub install voice-clone-tts-1776094502

下载

⬇ 下载 voice-clone-tts v1.0.0(免费)

文件大小: 5.05 KB | 发布时间: 2026-4-14 14:27

v1.0.0 最新 2026-4-14 14:27
Initial release

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
返回顶部