返回顶部
v

video-stt视频语音转文字

Extract audio from video URLs and transcribe using STT (Speech-to-Text). Supports local Whisper or cloud APIs. Use when: user provides a video URL and wants to know what is being said, transcribing YouTube videos, podcasts, or any video with audio.

作者: admin | 来源: ClawHub
源自
ClawHub
版本
V 1.0.0
安全检测
已通过
315
下载量
免费
免费
0
收藏
概述
安装方式
版本历史

video-stt

Video STT 技能

从视频 URL 提取音频并转换为文字(语音转文字)

环境要求

  • - yt-dlp - 下载视频/音频
  • ffmpeg - 提取音频
  • Python - 使用 uv 虚拟环境

快速开始

bash

进入脚本目录


cd ~/.openclaw/workspace/skills/video-stt/scripts

运行转录

bash stt.sh 视频URL

使用方法

bash

基本用法


bash stt.sh https://youtube.com/watch?v=xxx

指定输出文件

bash stt.sh https://youtube.com/watch?v=xxx -o output.txt

使用本地 Whisper 模型

bash stt.sh https://youtube.com/watch?v=xxx --local

使用云端 API

bash stt.sh https://youtube.com/watch?v=xxx --api openai

支持的模型

本地(免费)

  • - tiny - 最快,质量一般
  • base - 平衡
  • small - 较好
  • medium - 很好
  • large - 最佳(需要更多内存)

云端 API

  • - OpenAI Whisper API
  • Azure Speech
  • Google Speech

输出格式

默认输出纯文本,可选:

  • - .txt - 纯文本
  • .srt - 字幕格式
  • .vtt - WebVTT 字幕
  • .json - 带时间戳的 JSON

环境变量

bash

OpenAI(如果使用云端)


export OPENAIAPIKEY=sk-xxx

或者使用硅基流动(更便宜)

export SILICONFLOWAPIKEY=xxx

示例

bash

转录 YouTube 视频


bash stt.sh https://www.youtube.com/watch?v=dQw4w9WgXcQ

指定模型

bash stt.sh https://youtube.com/watch?v=xxx --model medium

保存为 SRT

bash stt.sh https://youtube.com/watch?v=xxx --format srt

Python 依赖

使用 uv 管理 Python 环境:
bash

创建虚拟环境


uv venv
uv pip install yt-dlp whisper ffmpeg-python

运行

uv run python stt.py 视频URL

标签

skill ai

通过对话安装

该技能支持在以下平台通过对话安装:

OpenClaw WorkBuddy QClaw Kimi Claude

方式一:安装 SkillHub 和技能

帮我安装 SkillHub 和 video-stt-1776191817 技能

方式二:设置 SkillHub 为优先技能安装源

设置 SkillHub 为我的优先技能安装源,然后帮我安装 video-stt-1776191817 技能

通过命令行安装

skillhub install video-stt-1776191817

下载

⬇ 下载 video-stt v1.0.0(免费)

文件大小: 5.12 KB | 发布时间: 2026-4-15 13:12

v1.0.0 最新 2026-4-15 13:12
- Initial release of the video-stt skill.
- Extracts audio from video URLs and transcribes speech to text.
- Supports both local Whisper models and multiple cloud APIs (OpenAI, Azure, Google).
- Offers output in plain text, SRT, VTT, or JSON formats.
- Includes command-line and Python usage instructions with environment setup guidance.

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
返回顶部