🎤 Whisper Transcriber(离线语音转文字)
基于 whisper.cpp / whisper-cli 的离线语音识别技能。
快速使用
CODEBLOCK0
CODEBLOCK1
CODEBLOCK2
跨平台说明(Windows 推荐 WSL2)
- - macOS / Linux:使用 INLINECODE0
- Windows:推荐 WSL2(Ubuntu),在 WSL 内按 Linux 方式运行本 skill(最稳)
WSL 内安装/使用:
CODEBLOCK3
说明:原生 Windows 环境下 whisper-cli 的安装来源/包名不统一,公开发布时容易造成安装失败;因此本 skill 默认建议 WSL2。
可配置项(环境变量)
无需改脚本,直接用环境变量覆盖默认值:
- -
WHISPER_DEFAULT_MODEL(默认 base) - INLINECODE2 (默认 zh)
- INLINECODE3 (默认
<SKILL_DIR>/assets/models) - INLINECODE5 (默认同
WHISPER_MODEL_DIR,自动下载的默认目录;如你想把模型放到别处再覆盖此变量) - INLINECODE7 (默认
${TMPDIR:-/tmp};每次运行会在其下 mktemp 创建独立临时目录并自动清理)
目录结构
- -
scripts/transcribe.sh:主转写脚本(支持批量、SRT/TXT/JSON) - INLINECODE10 :跨平台安装依赖 + 可选下载模型
- INLINECODE11 :Windows(非 WSL)best-effort 安装/下载(不作为默认推荐路径)
- INLINECODE12 :模型默认下载/存放位置(仓库通过
.gitignore 忽略大模型文件,避免提交/发布) - INLINECODE14 :默认配置(发布/维护用,脚本通过环境变量覆盖即可)
需要更细的用法/参数说明:直接运行 bash <SKILL_DIR>/scripts/transcribe.sh --help。
🎤 Whisper Transcriber(离线语音转文字)
基于 whisper.cpp / whisper-cli 的离线语音识别技能。
快速使用
bash
bash /scripts/install.sh
bash
bash /scripts/transcribe.sh voice.ogg
bash
bash /scripts/transcribe.sh ./recordings -b -s
跨平台说明(Windows 推荐 WSL2)
- - macOS / Linux:使用 scripts/install.sh
- Windows:推荐 WSL2(Ubuntu),在 WSL 内按 Linux 方式运行本技能(最稳定)
WSL 内安装/使用:
bash
bash /scripts/install.sh
bash /scripts/transcribe.sh voice.ogg
说明:原生 Windows 环境下 whisper-cli 的安装来源/包名不统一,公开发布时容易造成安装失败;因此本技能默认建议使用 WSL2。
可配置项(环境变量)
无需修改脚本,直接用环境变量覆盖默认值:
- - WHISPERDEFAULTMODEL(默认 base)
- WHISPERDEFAULTLANG(默认 zh)
- WHISPERMODELDIR(默认 DIR>/assets/models)
- WHISPERMODELDIRUSER(默认同 WHISPERMODELDIR,自动下载的默认目录;如需将模型放到别处可覆盖此变量)
- WHISPERTEMPDIR(默认 ${TMPDIR:-/tmp};每次运行会在其下通过 mktemp 创建独立临时目录并自动清理)
目录结构
- - scripts/transcribe.sh:主转写脚本(支持批量、SRT/TXT/JSON)
- scripts/install.sh:跨平台安装依赖 + 可选下载模型
- scripts/install.ps1:Windows(非 WSL)尽力安装/下载(不作为默认推荐路径)
- assets/models/:模型默认下载/存放位置(仓库通过 .gitignore 忽略大模型文件,避免提交/发布)
- config.json:默认配置(发布/维护用,脚本通过环境变量覆盖即可)
如需更详细的用法/参数说明:直接运行 bash /scripts/transcribe.sh --help。