Video STT Skill
从视频 URL 提取音频并转换为文字 (Speech-to-Text)
环境要求
- - yt-dlp - 下载视频/音频
- ffmpeg - 提取音频
- Python - 使用 uv 虚拟环境
快速开始
CODEBLOCK0
使用方法
CODEBLOCK1
支持的模型
本地 (免费)
- - tiny - 最快,质量一般
- base - 平衡
- small - 较好
- medium - 很好
- large - 最佳(需要更多内存)
云端 API
- - OpenAI Whisper API
- Azure Speech
- Google Speech
输出格式
默认输出纯文本,可选:
- -
.txt - 纯文本 - INLINECODE1 - 字幕格式
- INLINECODE2 - WebVTT 字幕
- INLINECODE3 - 带时间戳的 JSON
环境变量
CODEBLOCK2
示例
CODEBLOCK3
Python 依赖
使用 uv 管理 Python 环境:
CODEBLOCK4
Video STT 技能
从视频 URL 提取音频并转换为文字(语音转文字)
环境要求
- - yt-dlp - 下载视频/音频
- ffmpeg - 提取音频
- Python - 使用 uv 虚拟环境
快速开始
bash
进入脚本目录
cd ~/.openclaw/workspace/skills/video-stt/scripts
运行转录
bash stt.sh 视频URL
使用方法
bash
基本用法
bash stt.sh https://youtube.com/watch?v=xxx
指定输出文件
bash stt.sh https://youtube.com/watch?v=xxx -o output.txt
使用本地 Whisper 模型
bash stt.sh https://youtube.com/watch?v=xxx --local
使用云端 API
bash stt.sh https://youtube.com/watch?v=xxx --api openai
支持的模型
本地(免费)
- - tiny - 最快,质量一般
- base - 平衡
- small - 较好
- medium - 很好
- large - 最佳(需要更多内存)
云端 API
- - OpenAI Whisper API
- Azure Speech
- Google Speech
输出格式
默认输出纯文本,可选:
- - .txt - 纯文本
- .srt - 字幕格式
- .vtt - WebVTT 字幕
- .json - 带时间戳的 JSON
环境变量
bash
OpenAI(如果使用云端)
export OPENAI
APIKEY=sk-xxx
或者使用硅基流动(更便宜)
export SILICONFLOW
APIKEY=xxx
示例
bash
转录 YouTube 视频
bash stt.sh https://www.youtube.com/watch?v=dQw4w9WgXcQ
指定模型
bash stt.sh https://youtube.com/watch?v=xxx --model medium
保存为 SRT
bash stt.sh https://youtube.com/watch?v=xxx --format srt
Python 依赖
使用 uv 管理 Python 环境:
bash
创建虚拟环境
uv venv
uv pip install yt-dlp whisper ffmpeg-python
运行
uv run python stt.py 视频URL