返回顶部
m

mosi-studio莫西工作室

>

作者: admin | 来源: ClawHub
源自
ClawHub
版本
V 0.0.4
安全检测
已通过
321
下载量
免费
免费
0
收藏
概述
安装方式
版本历史

mosi-studio

MOSI Studio 音频全套 Skill

文件路径铁律(禁止例外)
所有生成的音频文件必须保存到 ~/.openclaw/workspace/。
绝对不能用 /tmp/、/var/tmp/ 或相对路径。
OpenClaw 媒体策略会静默拦截 workspace 以外的文件——不报错,直接失败。
错误示例:ffmpeg -i x.wav /tmp/out.opus
正确示例:ffmpeg -i x.wav ~/.openclaw/workspace/out.opus

支持的能力:

功能模型脚本
文字转语音(TTS)moss-ttsscripts/mositts.sh / mositts.py
指令式语音生成
moss-voice-generator | scripts/mosivoicegenerator.sh |
| 语音转文字(ASR) | — | scripts/mosi_asr.sh |
| 多说话人对话合成 | moss-ttsd | scripts/mosi_dialogue.sh |
| 音效生成 | moss-sound-effect | scripts/mosisoundeffect.sh |
| 声音克隆 | — | scripts/mosi_voice.py |
| 飞书语音气泡 | — | scripts/mosifeishuvoice.sh |

Base URL:https://studio.mosi.cn



环境准备

API Key

Key 通过 Kubernetes Secret 注入为 MOSITTSAPI_KEY,对话中不得透露。

bash
echo key已配置: $([ -n $MOSITTSAPI_KEY ] \
&& echo yes || echo NO)

依赖清单

下表列出本 skill 用到的所有外部工具,以及缺失时的替代方案:

工具用途缺失时的处理
nodeJSON 处理、base64 解码基础镜像自带,始终可用
curl
HTTP 请求 | 基础镜像自带,始终可用 |
| ffmpeg | WAV→OPUS 转换(语音气泡必需) | 无法发语音气泡,TTS 仍可用 |
| ffprobe | 获取音频时长(随 ffmpeg 一起安装) | 同上 |
| python3 + python3-requests | 声音克隆脚本 | 克隆功能不可用,其他功能正常 |
| bc | 浮点数计算 | 用 awk 或 node -e 替代 |
| jq | JSON 解析 | 用 node -e 替代 |
| wget | 文件下载 | 用 curl -O 替代 |
| sox | 音频格式分析/转换 | 用 ffprobe 替代 |
| mediainfo | 媒体文件元信息 | 用 ffprobe 替代 |
| unzip / zip | 压缩包处理 | — |
| tree | 目录结构显示 | 用 ls -R 替代 |
| nano | 文件编辑 | — |

一键检查当前环境

bash
for cmd in node curl ffmpeg ffprobe python3 \
bc jq wget sox mediainfo unzip zip; do
printf %-12s %s\n $cmd \
$(which $cmd 2>/dev/null || echo 未安装)
done

安装缺失依赖

推荐方式:重新构建镜像(Dockerfile.py3 已包含全部依赖):

bash

在项目根目录执行


docker build -f Dockerfile.py3 -t openclaw-custom .

临时安装(有 root 权限,重启后失效):

bash
apt-get update && apt-get install -y --no-install-recommends \
python3 python3-pip python3-requests \
ffmpeg bc jq wget sox mediainfo unzip zip tree nano

没有 root 权限时

  • - 基础 TTS / ASR / 对话合成:只需 curl + node,脚本可直接运行
  • 飞书语音气泡:必须有 ffmpeg,无权限时请让用户重建镜像
  • 声音克隆:需要 python3,无权限时功能不可用

1. 文字转语音(TTS)

接口:POST /api/v1/audio/speech
模型:moss-tts
输出:24 kHz WAV,响应中 base64 编码

Shell 脚本(无额外依赖)

bash
bash scripts/mosi_tts.sh --text 你好,世界

保存到:~/.openclaw/workspace/tts_output.wav

bash scripts/mosi_tts.sh \
--text Hello, world \
--voice-id 2001931510222950400 \
--output ~/.openclaw/workspace/my_audio.wav

Python 脚本(需要 python3 + requests)

bash
python3 scripts/mosi_tts.py \
--text 你好,世界 \
--output ~/.openclaw/workspace/tts_output.wav

输出路径规则:必须用 ~/.openclaw/workspace/,
workspace 以外的路径会被 OpenClaw 媒体策略拦截。

请求参数

参数类型默认值说明
modelstring固定 moss-tts
text
string | — | 要合成的文本 | | voice_id | string | — | 公共或自定义声音 ID | | expecteddurationsec | float | 自动 | 目标时长(0.5–1.5× 自然语速) | | sampling_params.temperature | float | 1.7 | 中文 1.7,英文 1.5 | | samplingparams.maxnew_tokens | int | 512 | 最大 token 数 | | meta_info | bool | false | 是否返回性能指标 |

内置公共声音

声音 ID名称风格
2001257729754140672阿树轻松自然(默认)
2001931510222950400
程述 | 播客、理性 | | 2002941772480647168 | 阿宁 | 温柔、暖心 | | 2020009311371005952 | 台湾女声 | 柔和、治愈 | | 2020008594694475776 | 北京男声 | 清晰、标准 | | 2001286865130360832 | 周周 | 独白、讲故事 | | 2001898421836845056 | 子琪 | 活力、明亮 | | 2001910895478837248 | 小满 | 甜美、开朗 | | 2002991117984862208 | 梁子 | 专业、播报 |

2. 指令式语音生成(Voice Generator)

接口:POST /api/v1/audio/speech
模型:moss-voice-generator
输出:24 kHz WAV,响应中 base64 编码

通过自然语言描述所需的声音特征,即可生成对应风格的语音。
如果用户需要生成特定的某个名人的声音,可以告诉用户自己需要上网找一段音色,然后用这个音色调用voice clone接口(找不到就算了)。
无需指定 voice_id,用文字描述即可。

Shell 脚本

bash

播音腔女声


bash scripts/mosivoicegenerator.sh \
-t 各位观众朋友们大家好,欢迎收看今天的新闻节目。 \
-i 播音腔女声,专业、清晰、有亲和力,像央视新闻主播

温柔男声

bash scripts/mosivoicegenerator.sh \ -t 晚安,好梦 \ -i 一个温柔的男声,轻柔舒缓

有活力的年轻女声

bash scripts/mosivoicegenerator.sh \ -t 欢迎来到我们的节目! \ -i 年轻有活力的女声,热情开朗

指定输出路径

bash scripts/mosivoicegenerator.sh \ -t 要生成的文字 \ -i 声音描述 \ -o ~/.openclaw/workspace/output.wav

获取性能指标

bash scripts/mosivoicegenerator.sh \ -t 测试文本 \ -i 专业女声 \ --meta-info

请求参数

参数类型必填说明
modelstring固定 moss-voice-generator
| text

标签

skill ai

通过对话安装

该技能支持在以下平台通过对话安装:

OpenClaw WorkBuddy QClaw Kimi Claude

方式一:安装 SkillHub 和技能

帮我安装 SkillHub 和 moss-tts-family-chatbot-1776152354 技能

方式二:设置 SkillHub 为优先技能安装源

设置 SkillHub 为我的优先技能安装源,然后帮我安装 moss-tts-family-chatbot-1776152354 技能

通过命令行安装

skillhub install moss-tts-family-chatbot-1776152354

下载

⬇ 下载 mosi-studio v0.0.4(免费)

文件大小: 23.13 KB | 发布时间: 2026-4-15 14:00

v0.0.4 最新 2026-4-15 14:00
**Summary:**
Expanded description: added multi-feature audio capability details, strict file path rules, supported operations, dependencies, and usage examples for multiple audio tasks.

- Added detailed descriptions of supported audio features: ASR, TTS, multi-speaker dialogue synthesis, voice cloning, and Feishu voice bubbles.
- Clarified strict file path requirements for generated audio outputs.
- Listed and explained all script entry points and available audio models.
- Provided comprehensive usage instructions for each capability (including sample scripts and parameter explanations).
- Documented environment preparation steps, dependency handling, troubleshooting, and installation methods.
- Included best practices, feature usage guides, and common pitfalls for users.

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
返回顶部