返回顶部
m

moark-tts语音合成技能

Text-to-Speech (TTS) and voice-feature skill for Gitee AI that lets the user choose audiofly, chattts, cosyvoice2, cosyvoice3, cosyvoice-300m, fish-speech-1.2-sft, index-tts-1.5, index-tts-2, glm-tts, megatts3, moss-ttsd-v0.5, qwen-tts, spark-tts-0.5b, step-audio-tts-3b, or vibevoice-large, then fills in only model-specific parameters for speech or voice feature extraction, including multi-item Qwen3-TTS inputs with built-in or custom voices.

作者: admin | 来源: ClawHub
源自
ClawHub
版本
V 1.0.0
安全检测
已通过
106
下载量
免费
免费
0
收藏
概述
安装方式
版本历史

moark-tts

文本转语音(TTS)

该技能支持 Gitee AI TTS 以及 CosyVoice 语音特征提取工作流。
它支持十五种面向用户的 TTS 模型选择:

  • - audiofly
  • chattts
  • cosyvoice2
  • cosyvoice3
  • cosyvoice-300m
  • fish-speech-1.2-sft
  • index-tts-1.5
  • index-tts-2
  • glm-tts
  • megatts3
  • moss-ttsd-v0.5
  • qwen-tts
  • spark-tts-0.5b
  • step-audio-tts-3b
  • vibevoice-large

当用户未指定模型时,请要求用户选择一个。选定模型后,仅询问与该模型相关的参数。

使用方法

使用捆绑脚本生成语音。

bash
python {baseDir}/scripts/performtts.py --model cosyvoice2 --text 你好,我是模力方舟。 --voice alloy --api-key YOURAPI_KEY

对于 CosyVoice-300M 语音特征提取(语音克隆准备),请使用:

bash
python {baseDir}/scripts/performvoicefeatureextraction.py --model FunAudioLLM-CosyVoice-300M --prompt 提供用于声纹提取的提示文本 --file-url https://example.com/sample.mp3 --api-key YOURAPI_KEY

选项

  • - --model 必填:audiofly、chattts、cosyvoice2、cosyvoice3、cosyvoice-300m、fish-speech-1.2-sft、index-tts-1.5、index-tts-2、glm-tts、megatts3、moss-ttsd-v0.5、qwen-tts、spark-tts-0.5b、step-audio-tts-3b 或 vibevoice-large
  • --text 通常必填:要合成的文本。对于 Qwen3-TTS 多输入模式(--qwen-inputs-json),--text 为可选
  • --mode 可选:auto、sync 或 async
  • --prompt 可选:模型特定的风格提示,如 ChatTTS 标签
  • --prompt-text 可选:用于风格条件模型的参考转录文本
  • --prompt-audio-url 可选:用于风格条件模型的参考音频 URL
  • --qwen-inputs-json 可选:结构化的 Qwen3-TTS inputs JSON(数组/对象)。支持混合内置和自定义语音项
  • --speaker 可选:Qwen3-TTS 单输入的内置说话人(Vivian、Serena、UncleFu、Dylan、Eric、Ryan、Aiden、OnoAnna、Sohee)
  • --language 可选:Qwen3-TTS 单输入的语言(Chinese 或 English)
  • --instruction 可选:Qwen3-TTS 单输入的风格指令
  • --prompt-audio-urls 可选:vibevoice-large 参考音频;支持单个 URL 或 JSON 数组字符串,如 [https://a.wav,https://b.wav]
  • --emo-audio-prompt-url 可选:IndexTTS-2 的情感参考音频 URL
  • --emo-alpha 可选:IndexTTS-2 音频情感控制的混合权重
  • --emo-text 可选:IndexTTS-2 的情感控制文本
  • --use-emo-text 可选:启用或禁用 IndexTTS-2 的 emotext(true/false)
  • --prompt-wav-url 可选:CosyVoice2 或 CosyVoice3 的参考提示 WAV URL
  • --voice-url 可选:ChatTTS 或 fish-speech-1.2-sft 克隆的参考语音音频 URL
  • --instruct-text 可选:模型特定的指令文本,如 CosyVoice2 或 CosyVoice3 的说话风格指导
  • --seed 可选:模型特定的种子值,如 CosyVoice2 或 CosyVoice3
  • --audio-mode 可选:moss-ttsd-v0.5 的 single 或 role(当无法从字段推断模式时必填)
  • --prompt-audio-single-url 可选:moss-ttsd-v0.5 单说话人模式的参考音频 URL
  • --prompt-text-single 可选:moss-ttsd-v0.5 单说话人模式的参考转录文本
  • --prompt-audio-1-url 可选:moss-ttsd-v0.5 角色模式的说话人1参考音频 URL
  • --prompt-text-1 可选:moss-ttsd-v0.5 角色模式的说话人1参考转录文本
  • --prompt-audio-2-url 可选:moss-ttsd-v0.5 角色模式的说话人2参考音频 URL
  • --prompt-text-2 可选:moss-ttsd-v0.5 角色模式的说话人2参考转录文本
  • --use-normalize 可选:启用或禁用 moss-ttsd-v0.5 的 usenormalize(true/false)
  • --prompt-language 可选:MegaTTS3 等模型的提示语言提示
  • --intelligibility-weight 可选:MegaTTS3 等模型的发音清晰度权重
  • --similarity-weight 可选:MegaTTS3 等模型的音色相似度权重
  • --temperature 可选:模型特定的采样温度
  • --top-p 可选:模型特定的 top-p 采样值
  • --top-k 可选:模型特定的 top-k 采样值
  • --gender 可选:异步 TTS 性别提示
  • --pitch 可选:异步 TTS 音调提示
  • --speed 可选:异步 TTS 速度提示(例如 CosyVoice3、Spark-TTS-0.5B 或 Qwen3-TTS)
  • --num-inference-steps 可选:AudioFly 生成步数
  • --guidance-scale 可选:AudioFly 无分类器引导尺度
  • --output-format 可选:AudioFly 或 Qwen3-TTS 的输出格式,如 mp3 或 wav
  • --voice 可选:目标模型支持时的 OpenAI 兼容语音字段
  • --extra-body-json 可选:用于明确请求的未记录字段的 JSON 对象
  • --response-data-format 可选:同步 TTS 的 url 或 blob
  • --output 可选:同步 TTS 返回二进制音频时的输出文件路径
  • --failover-enabled 可选:请求头 X-Failover-Enabled,默认为 true
  • performvoicefeature_extraction.py 选项:--prompt、--file-url(仅 URL)、--model(默认为 FunAudioLLM-CosyVoice-300M)、--failover-enabled、--output、--api-key

工作流程

  1. 1. 确定用户需要语音合成还是 CosyVoice 语音特征提取。
  2. 对于语音合成:如果用户未指定,请要求用户从 audiofly、chattts、cosyvoice2、cosyvoice3、cosyvoice-300m、fish-speech-1.2-sft、index-tts-1.5、index-tts-2、glm-tts、megatts3、moss-ttsd-v0.5、qwen-tts、spark-tts-0.5b、step-audio-tts-3b 或 vibevoice-large 中选择一个。
  3. 对于语音合成:阅读 references/models.md,收集缺失的模型特定参数,并执行 performtts.py。
  4. 对于语音特征提取:使用 --prompt 和仅 URL 的 --file-url 执行 performvoicefeature_extraction.py。
  5. 解析脚本输出。
  6. 对于 T

标签

skill ai

通过对话安装

该技能支持在以下平台通过对话安装:

OpenClaw WorkBuddy QClaw Kimi Claude

方式一:安装 SkillHub 和技能

帮我安装 SkillHub 和 moark-tts-1776055519 技能

方式二:设置 SkillHub 为优先技能安装源

设置 SkillHub 为我的优先技能安装源,然后帮我安装 moark-tts-1776055519 技能

通过命令行安装

skillhub install moark-tts-1776055519

下载

⬇ 下载 moark-tts v1.0.0(免费)

文件大小: 17.04 KB | 发布时间: 2026-4-14 14:10

v1.0.0 最新 2026-4-14 14:10
Initial release of moark-tts: Multi-model TTS and voice feature extraction for Gitee AI.

- Supports 15 user-selectable TTS models, including AudioFly, ChatTTS, CosyVoice variants, Qwen-TTS, and more.
- Lets users specify only relevant model parameters for each selected TTS/voice feature workflow.
- Includes CosyVoice-300M voice feature (voice cloning prep) extraction workflow.
- Provides detailed CLI usage and parameter reference.
- Guides users to choose models and reminds about missing API keys when needed.

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
返回顶部