Coze Voice Generation
Text-to-Speech (TTS) and Automatic Speech Recognition (ASR) using coze-coding-dev-sdk.
Text-to-Speech (TTS)
Single Audio
CODEBLOCK0
With Different Voice
CODEBLOCK1
Batch Generation
CODEBLOCK2
With Custom Parameters
CODEBLOCK3
TTS Options
| Option | Description |
|---|
| INLINECODE0 | Single text to synthesize |
| INLINECODE1 |
Multiple texts for batch generation |
|
--speaker <id> | Voice ID (default: zh
femalexiaohe
uranusbigtts) |
|
--format <fmt> | mp3, pcm, ogg_opus (default: mp3) |
|
--sample-rate <hz> | 8000-48000 (default: 24000) |
|
--speech-rate <n> | -50 to 100 (default: 0) |
|
--loudness-rate <n> | -50 to 100 (default: 0) |
TTS Output
The script outputs audio URLs directly to stdout:
CODEBLOCK4
Available Voices
General Purpose:
- -
zh_female_xiaohe_uranus_bigtts - Xiaohe (default) - INLINECODE8 - Vivi (Chinese & English)
- INLINECODE9 - Yunzhou (male)
- INLINECODE10 - Xiaotian (male)
Audiobook:
- -
zh_female_xueayi_saturn_bigtts - Children's audiobook
Video Dubbing:
- -
zh_male_dayi_saturn_bigtts - Dayi (male) - INLINECODE13 - Mizai (female)
- INLINECODE14 - Motivational female
Role Playing:
- -
saturn_zh_female_keainvsheng_tob - Cute girl - INLINECODE16 - Cheerful boy
Speech-to-Text (ASR)
From URL
CODEBLOCK5
From Local File
CODEBLOCK6
ASR Options
| Option | Description |
|---|
| INLINECODE17 | Audio file URL |
| INLINECODE18 |
Local audio file path |
ASR Output
Transcription is printed directly to stdout:
CODEBLOCK7
ASR Requirements
- - Duration: ≤ 2 hours
- File size: ≤ 100MB
- Formats: WAV, MP3, OGG OPUS, M4A
Notes
- - Audio URLs have valid expiration - use directly when possible
- Speech rate: negative = slower, positive = faster
- Loudness rate: negative = quieter, positive = louder
Coze 语音生成
使用 coze-coding-dev-sdk 实现文本转语音(TTS)和自动语音识别(ASR)。
文本转语音(TTS)
单条音频
bash
npx ts-node {baseDir}/scripts/tts.ts --text 您好,欢迎使用我们的服务!
使用不同音色
bash
npx ts-node {baseDir}/scripts/tts.ts \
--text 这是一段男声 \
--speaker zhmalem191uranusbigtts
批量生成
bash
npx ts-node {baseDir}/scripts/tts.ts \
--texts 第一章:简介 第二章:快速入门 第三章:高级主题 \
--speaker zhfemalexueayisaturnbigtts
自定义参数
bash
npx ts-node {baseDir}/scripts/tts.ts \
--text 快速且响亮的公告! \
--speech-rate 30 \
--loudness-rate 20 \
--format mp3 \
--sample-rate 48000
TTS 参数选项
| 参数 | 描述 |
|---|
| --text <文本> | 需要合成的单条文本 |
| --texts <文本列表...> |
批量生成的多个文本 |
| --speaker
| 音色 ID(默认:zhfemalexiaoheuranusbigtts) |
| --format <格式> | mp3、pcm、ogg_opus(默认:mp3) |
| --sample-rate <赫兹> | 8000-48000(默认:24000) |
| --speech-rate <数值> | -50 到 100(默认:0) |
| --loudness-rate <数值>| -50 到 100(默认:0) |
TTS 输出
脚本直接将音频 URL 输出到标准输出:
[1/1] 您好,欢迎使用我们的服务!
https://example.com/generated-audio.mp3
可用音色
通用音色:
- - zhfemalexiaoheuranusbigtts - 晓荷(默认)
- zhfemalevvuranusbigtts - Vivi(中英文)
- zhmalem191uranusbigtts - 云舟(男声)
- zhmaletaochenguranusbigtts - 小田(男声)
有声读物:
- - zhfemalexueayisaturnbigtts - 儿童有声读物
视频配音:
- - zhmaledayisaturnbigtts - 大义(男声)
- zhfemalemizaisaturnbigtts - 米仔(女声)
- zhfemalejitangnvsaturnbigtts - 励志女声
角色扮演:
- - saturnzhfemalekeainvshengtob - 可爱女生
- saturnzhmaleshuanglangshaoniantob - 爽朗少年
语音转文字(ASR)
从 URL 转换
bash
npx ts-node {baseDir}/scripts/asr.ts --url https://example.com/audio.mp3
从本地文件转换
bash
npx ts-node {baseDir}/scripts/asr.ts --file ./recording.mp3
ASR 参数选项
| 参数 | 描述 |
|---|
| --url <URL> | 音频文件 URL |
| --file <路径> |
本地音频文件路径 |
ASR 输出
转录结果直接打印到标准输出:
============================================================
转录文本
============================================================
您好,这是从音频文件中转录的文本...
============================================================
时长:1分30秒
片段数:5
ASR 要求
- - 时长:≤ 2小时
- 文件大小:≤ 100MB
- 格式:WAV、MP3、OGG OPUS、M4A
注意事项
- - 音频 URL 有有效期限制,请尽快使用
- 语速:负值表示减慢,正值表示加快
- 音量:负值表示降低,正值表示提高