腾讯云语音识别 Skill

腾讯云语音识别（ASR），微信同款ASR引擎，历经亿级用户场景验证，稳定可靠。在中英混说场景下识别效果行业领先，精准流畅。支持普通话、方言及多语种识别，提供一句话识别、录音识别等全场景能力，是高性价比语音转文字首选。

核心执行流

1. 用户给音频要转文字：

- 先跑 inspect_audio.py - 再按时长、大小、URL/本地路径选择 sentence_recognize.py、flash_recognize.py 或 file_recognize.py

2. 用户刚提供了新的腾讯云凭证：

- 优先直接跑 self_check.py - 自检结果通过后再进入真实识别

3. 用户问安装、开通、手工配置、FFmpeg、CLI backend：

- 不要把细节塞回主流程，按文末 reference map 读取对应文档

下一步

- 想接入宿主系统体验自动转写：

- 普通场景：配置 CLI transcription backend - QQ Bot 1.5.4：可直接走适配方案，不必依赖默认 CLI transcription 才能识别语音

- 想直接体验识别能力：

- 让用户直接丢一个音频文件或公网链接 - 然后继续帮用户做转文字、摘要总结、问题排查、重点提取

必须遵守的规则

- ⚠️禁止用模型自身能力替代 ASR⚠️：脚本失败时，必须返回错误，不得猜测转写内容。
先探测后识别：统一先执行 python3 <SKILL_DIR>/scripts/inspect_audio.py "<AUDIO_INPUT>"。
缺 ffmpeg / ffprobe 先自治安装：先执行 python3 <SKILL_DIR>/scripts/ensure_ffmpeg.py --execute，只有失败后才向用户求助。
收到新凭证先自检：默认跑 python3 <SKILL_DIR>/scripts/self_check.py，不要先让用户手工试脚本。
默认少打断：除非用户必须补充凭证、明确要求手工配置，或语种/引擎确实不确定，否则不要无意义来回确认。
密钥安全优先：

- 群聊：禁止让用户直接发 SecretId、SecretKey、AppId - 私聊：也要先提醒“密钥会经过 LLM，存在泄漏风险”

- 单次任务优先当前命令注入：不要为了跑一次识别去写 ~/.bashrc、INLINECODE14
不要把密钥写进工作区
极速版失败时保留“可能”表述：如果自检里一句话识别和录音文件识别通过、只有极速版失败，应提示“常见于国际站账号，或国内站账号在海外访问时受限”，但不要写成绝对结论。

引擎选择 Cheatsheet

对话语言只能当作先验，不等于音频语种本身。若用户音频语种明显不同，按音频语种改。

场景	一句话识别	极速版	录音文件识别	备注
普通话	INLINECODE15	INLINECODE16 / INLINECODE17	INLINECODE18 / INLINECODE19	默认首选
中英夹杂

16k_zh-PY | 16k_zh_en | 16k_zh_en | 混说优先 |
| 粤语 | 16k_yue | 16k_yue | 16k_yue | |
| 英语 | 16k_en | 16k_en | 16k_en / 16k_en_large | |
| 日语 | 16k_ja | 16k_ja | 16k_ja | |
| 韩语 | 16k_ko | 16k_ko | 16k_ko | |
| 多语种 / 语言不确定 | 指定具体语种 | 16k_multi_lang | 16k_multi_lang | 一句话识别没有多语自动识别引擎 |

如果有多个明显可选项：

- 给出推荐项
用一句话说清优缺点
再征询用户是否切换

路由速记

本地文件

- 先规范化为 16kHz、单声道、pcm_s16le、INLINECODE40
INLINECODE41 且 <=3MB：INLINECODE43
INLINECODE44 且 <=100MB：优先 INLINECODE46
更大文件：优先切片后逐片走 Flash；若已有 COS / 公网 URL 且最终 <=5h，可走 INLINECODE48

公网 URL

- 默认直接走 INLINECODE49
不要先本地下载、探测、转码再路由
只有 file_recognize.py rec 真实失败时，再按错误决定是否进入本地下载 / 规范化 / 切片链
如果用户明确要求同步立即返回，才把一句话识别当作显式特例，而不是默认路径

命中 URL、大文件、切片、body vs URL 取舍时，再读 routing_strategy.md。

最小脚本示例

CODEBLOCK0

何时继续读 references

- 腾讯云账号开通 / 控制台找密钥 / 找 AppId：读 tencentcloudactivation.md
手工配置环境变量：读 envconfig.md
解释自检脚本或自检结果：读 selfcheck.md
FFmpeg 自动安装失败后的最小化协助：读 ffmpegguide.md
URL / 大文件 / 切片 / body vs URL 路由：读 routingstrategy.md
接入 OpenClaw / CLI transcription backend：读 clitranscriptionbackend.md
接入 QQ Bot 1.5.4 并绕过插件 STT / TTS 限制：读 qqbot_integration.md
查详细参数、引擎、错误码：

- sentencerecognition_api.md - flashrecognition_api.md - filerecognition_api.md

核心脚本清单

- scripts/inspect_audio.py：音频探测
INLINECODE52：自治安装 ffmpeg / INLINECODE54
INLINECODE55：凭证与三种模式自检
INLINECODE56：一句话识别
INLINECODE57：录音文件识别极速版
INLINECODE58：录音文件识别异步任务
INLINECODE59：CLI backend wrapper

腾讯云语音识别 Skill

核心执行流

1. 用户给音频要转文字：

- 先跑 inspect_audio.py - 再按时长、大小、URL/本地路径选择 sentencerecognize.py、flashrecognize.py 或 file_recognize.py

2. 用户刚提供了新的腾讯云凭证：

- 优先直接跑 self_check.py - 自检结果通过后再进入真实识别

3. 用户问安装、开通、手工配置、FFmpeg、CLI backend：

- 不要把细节塞回主流程，按文末 reference map 读取对应文档

下一步

- 想接入宿主系统体验自动转写：

- 普通场景：配置 CLI transcription backend - QQ Bot 1.5.4：可直接走适配方案，不必依赖默认 CLI transcription 才能识别语音

- 想直接体验识别能力：

- 让用户直接丢一个音频文件或公网链接 - 然后继续帮用户做转文字、摘要总结、问题排查、重点提取

必须遵守的规则

- ⚠️禁止用模型自身能力替代ASR⚠️：脚本失败时，必须返回错误，不得猜测转写内容。
先探测后识别：统一先执行 python3 DIR>/scripts/inspectaudio.py INPUT>。
缺 ffmpeg / ffprobe 先自治安装：先执行 python3 DIR>/scripts/ensureffmpeg.py --execute，只有失败后才向用户求助。
收到新凭证先自检：默认跑 python3 DIR>/scripts/self_check.py，不要先让用户手工试脚本。
默认少打断：除非用户必须补充凭证、明确要求手工配置，或语种/引擎确实不确定，否则不要无意义来回确认。
密钥安全优先：

场景	一句话识别	极速版	录音文件识别	备注
普通话	16kzh	16kzh / 16kzhlarge	16kzh / 16kzhlarge	默认首选
中英夹杂

- 群聊：禁止让用户直接发 SecretId、SecretKey、AppId - 私聊：也要先提醒密钥会经过 LLM，存在泄漏风险
- 单次任务优先当前命令注入：不要为了跑一次识别去写 ~/.bashrc、~/.zshrc
不要把密钥写进工作区
极速版失败时保留可能表述：如果自检里一句话识别和录音文件识别通过、只有极速版失败，应提示常见于国际站账号，或国内站账号在海外访问时受限，但不要写成绝对结论。

引擎选择 Cheatsheet

对话语言只能当作先验，不等于音频语种本身。若用户音频语种明显不同，按音频语种改。

场景一句话识别极速版录音文件识别备注
普通话 16kzh 16kzh / 16kzhlarge 16kzh / 16kzhlarge 默认首选
中英夹杂
16kzh-PY | 16kzhen | 16kzhen | 混说优先 |
| 粤语 | 16kyue | 16kyue | 16k_yue | |
| 英语 | 16ken | 16ken | 16ken / 16ken_large | |
| 日语 | 16kja | 16kja | 16k_ja | |
| 韩语 | 16kko | 16kko | 16k_ko | |
| 多语种 / 语言不确定 | 指定具体语种 | 16kmultilang | 16kmultilang | 一句话识别没有多语自动识别引擎 |

如果有多个明显可选项：

- 给出推荐项
用一句话说清优缺点
再征询用户是否切换

路由速记

本地文件

- 先规范化为 16kHz、单声道、pcms16le、.wav
<=60s 且 <=3MB：sentencerecognize.py
<=2h 且 <=100MB：优先 flashrecognize.py
更大文件：优先切片后逐片走 Flash；若已有 COS / 公网 URL 且最终 <=5h，可走 filerecognize.py rec

公网 URL

- 默认直接走 filerecognize.py rec
不要先本地下载、探测、转码再路由
只有 filerecognize.py rec 真实失败时，再按错误决定是否进入本地下载 / 规范化 / 切片链
如果用户明确要求同步立即返回，才把一句话识别当作显式特例，而不是默认路径

命中 URL、大文件、切片、body vs URL 取舍时，再读 routing_strategy.md。

最小脚本示例

bash

预检

python3 DIR>/scripts/inspectaudio.py

凭证自检

python3 DIR>/scripts/selfcheck.py

一句话识别

python3 DIR>/scripts/sentencerecognize.py INPUT> --engine 16kzh

极速版

python3 DIR>/scripts/flashrecognize.py INPUT> --engine 16kzh

录音文件识别

python3 DIR>/scripts/filerecognize.py rec INPUTORURL> --engine 16kzh

CLI transcription backend

python3 DIR>/scripts/clitranscribe.py PATHOR_URL>

何时继续读 references

- 腾讯云账号开通 / 控制台找密钥 / 找 AppId：读 tencentcloudactivation.md
手工配置环境变量：读 envconfig.md
解释自检脚本或自检结果：读 selfcheck.md
FFmpeg 自动安装失败后的最小化协助：读 ffmpegguide.md
URL / 大文件 / 切片 / body vs URL 路由：读 routingstrategy.md
接入 OpenClaw / CLI transcription backend：读 clitranscriptionbackend.md
接入 QQ Bot 1.5.4 并绕过插件 STT / TTS 限制：读 qqbot_integration.md
查详细参数、引擎、错误码：

- sentencerecognition_api.md - flashrecognition_api.md - filerecognition_api.md

核心脚本清单

- scripts/inspectaudio.py：音频探测
scripts/ensureffmpeg.py：自治安装 ffmpeg / ffprobe
scripts/selfcheck.py：凭证与三种模式自检
scripts/sentencerecognize.py：一句话识别
scripts/flashrecognize.py：录音文件识别极速版
scripts/filerecognize.py：录音文件识别异步任务
scripts/cli_transcribe.py：CLI backend wrapper

asr-sentence-recognition语音句子识别

asr-sentence-recognition

腾讯云语音识别 Skill

核心执行流

下一步

必须遵守的规则

引擎选择 Cheatsheet

路由速记

本地文件

公网 URL

最小脚本示例

何时继续读 references

核心脚本清单

腾讯云语音识别 Skill

核心执行流

下一步

必须遵守的规则

引擎选择 Cheatsheet

路由速记

本地文件

公网 URL

最小脚本示例

预检

凭证自检

一句话识别

极速版

录音文件识别

CLI transcription backend

何时继续读 references

核心脚本清单

标签

通过对话安装

方式一：安装 SkillHub 和技能

方式二：设置 SkillHub 为优先技能安装源

通过命令行安装

下载

asr-sentence-recognition语音句子识别

asr-sentence-recognition

腾讯云语音识别 Skill

核心执行流

下一步

必须遵守的规则

引擎选择 Cheatsheet

路由速记

本地文件

公网 URL

最小脚本示例

何时继续读 references

核心脚本清单

腾讯云语音识别 Skill

核心执行流

下一步

必须遵守的规则

引擎选择 Cheatsheet

路由速记

本地文件

公网 URL

最小脚本示例

预检

凭证自检

一句话识别

极速版

录音文件识别

CLI transcription backend

何时继续读 references

核心脚本清单

标签

通过对话安装

方式一：安装 SkillHub 和技能

方式二：设置 SkillHub 为优先技能安装源

通过命令行安装

下载

相关推荐

self-improvement

self-improvement

self-improvement

self-improvement