返回顶部
s

speech语音合成

Use when the user asks for text-to-speech narration or voiceover, accessibility reads, audio prompts, or batch speech generation via the OpenAI Audio API; run the bundled CLI (`scripts/text_to_speech.py`) with built-in voices and require `OPENAI_API_KEY` for live calls. Custom voice creation is out of scope.

作者: admin | 来源: ClawHub
源自
ClawHub
版本
V 0.1.0
安全检测
已通过
381
下载量
免费
免费
0
收藏
概述
安装方式
版本历史

speech

语音生成技能

为当前项目生成语音音频(旁白、产品演示配音、IVR提示、无障碍朗读)。默认使用 gpt-4o-mini-tts-2025-12-15 和内置语音,并优先使用捆绑CLI以确保确定性和可复现运行。

使用时机

  • - 从文本生成单个语音片段
  • 生成一批提示(多行文本、多个文件)

决策树(单个 vs 批量)

  • - 如果用户提供多行/多个提示或需要多个输出 -> 批量
  • 否则 -> 单个

工作流程

  1. 1. 确定意图:单个还是批量(参见上述决策树)。
  2. 预先收集输入:精确文本(逐字)、期望语音、表达风格、格式及任何约束条件。
  3. 如果是批量:在 tmp/ 下编写临时JSONL文件(每行一个任务),运行一次,然后删除JSONL文件。
  4. 在不重写输入文本的情况下,将指令扩充为简短的标注规范。
  5. 使用合理默认值运行捆绑CLI(scripts/texttospeech.py)(参见 references/cli.md)。
  6. 对于重要片段,验证:清晰度、节奏、发音及约束条件遵守情况。
  7. 通过单一针对性修改(语音、速度或指令)进行迭代,然后重新检查。
  8. 保存/返回最终输出,并记录最终使用的文本+指令+参数。

临时和输出规范

  • - 使用 tmp/speech/ 存放中间文件(例如JSONL批次);完成后删除。
  • 在此仓库中工作时,将最终产物写入 output/speech/。
  • 使用 --out 或 --out-dir 控制输出路径;保持文件名稳定且具有描述性。

依赖项(如缺失则安装)

优先使用 uv 管理依赖项。

Python 包:

uv pip install openai

如果 uv 不可用:

python3 -m pip install openai

环境

  • - 实时API调用必须设置 OPENAIAPIKEY。

如果缺少密钥,请按以下步骤指导用户:

  1. 1. 在OpenAI平台UI中创建API密钥:https://platform.openai.com/api-keys
  2. 在系统中将 OPENAIAPIKEY 设置为环境变量。
  3. 如有需要,可指导用户根据其操作系统/Shell设置环境变量。
  • - 切勿要求用户在聊天中粘贴完整密钥。请要求用户在本地设置,并在准备就绪时确认。

如果在此环境中无法安装,请告知用户缺失的依赖项以及如何在本地安装。

默认值和规则

  • - 除非用户要求其他模型,否则使用 gpt-4o-mini-tts-2025-12-15。
  • 默认语音:cedar。如果用户想要更明亮的音色,优先使用 marin。
  • 仅使用内置语音。自定义语音不在本技能范围内。
  • GPT-4o mini TTS模型支持 instructions,但 tts-1 或 tts-1-hd 不支持。
  • 每次请求输入长度不得超过4096个字符。较长的文本需分块处理。
  • 限制50次请求/分钟。CLI将 --rpm 上限设为50。
  • 任何实时API调用前都需要 OPENAIAPIKEY。
  • 向最终用户明确说明语音由AI生成。
  • 所有API调用使用OpenAI Python SDK(openai 包);不使用原始HTTP。
  • 优先使用捆绑CLI(scripts/texttospeech.py),而非编写新的临时脚本。
  • 切勿修改 scripts/texttospeech.py。如有缺失,先询问用户再采取其他操作。

指令扩充

将用户指示重新格式化为简短、标注的规范。仅将隐含细节明确化;不添加新需求。

快速澄清(扩充 vs 发明):

  • - 如果用户说演示旁白,可以添加隐含的表达约束(清晰、稳定的节奏、友好的语气)。
  • 不引入用户未要求的新角色、口音或情感风格。

模板(仅包含相关行):

语音特质:<声音的整体特征和质感>
语气:<态度、正式程度、温暖度>
节奏:<缓慢、稳定、轻快>
情感:<要传达的关键情感>
发音:<需要清晰发音或强调的词语>
停顿:<需要有意停顿的位置>
强调:<需要重读的关键词或短语>
表达:<韵律或节奏说明>

扩充规则:

  • - 保持简短;仅添加用户已暗示或在其他地方提供的细节。
  • 不重写输入文本。
  • 如果缺少任何关键细节且影响成功,则提问;否则继续执行。

示例

单个示例(旁白)

输入文本:欢迎来到演示。今天我们将展示它的工作原理。
指令:
语音特质:温暖而沉稳。
语气:友好且自信。
节奏:稳定适中。
强调:重读演示和展示。

批量示例(IVR提示)

{input:感谢您的来电。请稍候。,voice:cedar,response_format:mp3,out:hold.mp3}
{input:销售请按1。技术支持请按2。,voice:marin,instructions:语气:清晰中性。节奏:缓慢。,response_format:wav}

指令最佳实践(简要列表)

  • - 指令结构:语音特质 -> 语气 -> 节奏 -> 情感 -> 发音/停顿 -> 强调。
  • 保持4到8行简短内容;避免冲突指导。
  • 对于名称/缩写,添加发音提示(例如清晰读出A-I)或在文本中提供音标拼写。
  • 对于编辑/迭代,重复不变项(例如保持节奏稳定)以减少偏差。
  • 通过单一修改进行迭代。

更多原则:references/prompting.md。可复制粘贴的规范:references/sample-prompts.md。

按用例指导

当请求特定表达风格时使用以下模块。它们提供针对性的默认值和模板。

  • - 旁白/解说:references/narration.md
  • 产品演示/配音:references/voiceover.md
  • IVR/电话提示:references/ivr.md
  • 无障碍朗读:references/accessibility.md

CLI + 环境说明

  • - CLI命令+示例:references/cli.md
  • API参数快速参考:references/audio-api.md
  • 指令模式+示例:references/voice-directions.md
  • 如果网络审批/沙箱设置造成阻碍:references/codex-network.md

参考映射

  • - references/cli.md:如何通过 scripts/texttospeech.py 运行语音生成/批次(命令、参数、配方)。
  • references/audio-api.md:API参数、限制、语音列表。
  • references/voice-directions.md:指令模式和示例。
  • references/prompting.md:指令最佳实践(结构、约束、迭代模式)。
  • references/sample-prompts.md:可复制粘贴的指令配方(仅示例;无额外理论)。
  • references/narration.md:旁白和解说的模板+默认值。
  • references/voiceover.md:产品演示配音的模板+默认值。
  • references/ivr.md:IVR/电话提示的模板+默认值。
  • references/accessibility.md:无障碍朗读的模板+默认值。
  • references/codex-network.md:环境/沙箱/网络审批故障排除。

标签

skill ai

通过对话安装

该技能支持在以下平台通过对话安装:

OpenClaw WorkBuddy QClaw Kimi Claude

方式一:安装 SkillHub 和技能

帮我安装 SkillHub 和 speech-1776185229 技能

方式二:设置 SkillHub 为优先技能安装源

设置 SkillHub 为我的优先技能安装源,然后帮我安装 speech-1776185229 技能

通过命令行安装

skillhub install speech-1776185229

下载

⬇ 下载 speech v0.1.0(免费)

文件大小: 20.44 KB | 发布时间: 2026-4-15 12:04

v0.1.0 最新 2026-4-15 12:04
Initial release of the speech skill.

- Provides text-to-speech narration, voiceover, and batch speech generation using the OpenAI Audio API and bundled CLI.
- Supports single or batch audio generation workflows with clear decision logic.
- Covers default voice/model selection, instruction formatting, file conventions, and dependency setup.
- Enforces environment checks, API key requirements, and output organization.
- Includes comprehensive instruction on user input augmentation and delivery customization.
- References sample templates and modules for common use cases (narration, IVR, accessibility, etc.).

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
返回顶部