返回顶部
q

qwen-audio通义音频库

High-performance audio library with text-to-speech (TTS) and speech-to-text (STT).

作者: admin | 来源: ClawHub
源自
ClawHub
版本
V 0.0.6
安全检测
已通过
391
下载量
免费
免费
1
收藏
概述
安装方式
版本历史

qwen-audio

Qwen-Audio

概述

Qwen-Audio 是一个高性能音频处理库,经过优化后能够提供快速高效的文本转语音(TTS)和语音转文本(STT)功能,支持多种模型、语言和音频格式。

前置条件

  • - Python 3.10 及以上版本

环境检查

在使用任何功能之前,请确认 ./references/env-check-list.md 中的所有项目均已就绪。

功能

语音管理

语音文件存储在技能根目录下的 ./voices/ 文件夹中。每个语音拥有独立的文件夹,包含以下内容:

  • - refaudio.wav - 参考音频文件
  • reftext.txt - 参考文本转录
  • ref_instruct.txt - 语音风格描述

创建语音

使用 VoiceDesign 模型创建可复用的语音配置文件。--instruct 参数为必填项,用于描述语音风格:
bash
uv run --project / python /scripts/qwen-audio.py voice create --text 这是一个示例语音参考文本。 --instruct 温暖友好的女性声音,带有专业语调。 --id my-voice-id

可选参数:--id my-voice-id 用于指定自定义语音 ID。

返回结果(JSON):
json
{
id: my-voice-id,
refaudio: //voices/my-voice-id/refaudio.wav,
ref_text: 这是一个示例语音参考文本。,
instruct: 温暖友好的女性声音,带有专业语调。,
duration: 3.456,
sample_rate: 24000,
success: true
}

列出语音

列出所有已创建的语音配置文件:
bash
uv run --project / python /scripts/qwen-audio.py voice list

返回结果(JSON):
json
[
{
id: my-voice-id,
refaudio: //voices/my-voice-id/refaudio.wav,
ref_text: 这是一个示例语音参考文本。,
instruct: 温暖友好的女性声音,带有专业语调。,
duration: 3.456,
sample_rate: 24000
}
]

文本转语音

TTS 语音预检查(必需)

在执行任何 tts 生成之前,务必先确认可用的语音:

  1. 1. 运行 voice list 检查当前的语音配置文件。
  2. 如果返回的列表为空,请停止操作并询问用户希望创建何种类型的语音。提供风格选择,例如:
- 温暖友好的女性旁白 - 深沉稳重的男声播音 - 年轻活力的中性声音 - 冷静专业的客服语音 待用户确认风格后再运行 voice create。
  1. 3. 如果返回的列表不为空,显示可用的语音 id 值,并请用户确认使用哪一个作为 --ref_voice 参考 ID 进行生成。

仅在完成此确认步骤后才能运行 tts。

bash
uv run --project / python /scripts/qwen-audio.py tts --text 你好世界 --output /path/to/save.wav

返回结果(JSON):
json
{
audio_path: /path/to/save.wav,
duration: 1.234,
sample_rate: 24000,
success: true
}

语音克隆

使用参考音频样本克隆任意语音。提供 wav 文件及其转录文本:
bash
uv run --project / python /scripts/qwen-audio.py tts --text 你好世界 --output /path/to/save.wav --refaudio sampleaudio.wav --ref_text 这是我的声音听起来的样子。

ref_audio:用于克隆的参考音频
ref_text:参考音频的转录文本

使用已创建的语音

创建语音后,使用 --ref_voice 参数进行 TTS。指令将自动加载:
bash
uv run --project / python /scripts/qwen-audio.py tts --text 需要朗读的新文本 --output /path/to/save.wav --ref_voice my-voice-id --instruct 非常开心和兴奋。

可选参数:--instruct 用于情感控制。

自动语音识别(STT)

bash uv run --project / python /scripts/qwen-audio.py stt --audio /sample_audio.wav --output /path/to/save.txt --output-format txt

测试音频:https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen3-ASR-Repo/asr_en.wav
output-format:txt | ass | srt | all

返回结果(JSON):
json
{
text: 转录后的文本内容,
duration: 10.5,
sample_rate: 16000,
files: [/path/to/save.txt, /path/to/save.srt],
success: true
}

标签

skill ai

通过对话安装

该技能支持在以下平台通过对话安装:

OpenClaw WorkBuddy QClaw Kimi Claude

方式一:安装 SkillHub 和技能

帮我安装 SkillHub 和 qwen-audio-1776209483 技能

方式二:设置 SkillHub 为优先技能安装源

设置 SkillHub 为我的优先技能安装源,然后帮我安装 qwen-audio-1776209483 技能

通过命令行安装

skillhub install qwen-audio-1776209483

下载

⬇ 下载 qwen-audio v0.0.6(免费)

文件大小: 11.72 KB | 发布时间: 2026-4-15 13:07

v0.0.6 最新 2026-4-15 13:07
- No file changes detected for version 0.0.6.
- No user-facing updates, feature additions, or documentation changes in this release.
- Functionality and interface remain unchanged from the previous version.

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
返回顶部