返回顶部
a

audio-video-to-text音视频转文字

音视频转文字技能,使用 Whisper 进行语音识别。支持多种音视频格式,可输出纯文本、SRT/VTT 字幕或 JSON 格式。适用于会议记录、视频字幕生成、采访整理、播客转录等场景。

作者: admin | 来源: ClawHub
源自
ClawHub
版本
V 1.0.0
安全检测
已通过
891
下载量
免费
免费
0
收藏
概述
安装方式
版本历史

audio-video-to-text

音视频转文字

概述

本技能使用 OpenAI Whisper 模型将音频/视频文件转换为文字。支持自动语言检测和多种输出格式。

何时使用

  • - 会议录音转文字记录
  • 视频内容生成字幕(SRT/VTT)
  • 采访/播客内容整理
  • 语音备忘录转文本
  • 多语言视频翻译准备

快速开始

1. 安装依赖

bash
pip install openai-whisper ffmpeg-python

确保系统已安装 ffmpeg:
bash

Ubuntu/Debian


sudo apt-get install ffmpeg

macOS

brew install ffmpeg

Windows

从 https://ffmpeg.org/download.html 下载

2. 基本用法

bash
python scripts/transcribe.py <输入文件> [输出文件] [选项]

3. 示例

bash

转录 MP4 视频,输出文本


python scripts/transcribe.py meeting.mp4

转录音频,输出 SRT 字幕

python scripts/transcribe.py podcast.mp3 podcast.srt --output-format srt

指定中文和较小模型(更快)

python scripts/transcribe.py interview.wav --model tiny --language zh

输出带时间戳的 JSON

python scripts/transcribe.py video.mp4 result.json --output-format json

命令行选项

选项说明默认值
--model模型大小:tiny, base, small, medium, largebase
--language
语言代码:zh, en, ja 等 | 自动检测 | | --output-format | 输出格式:txt, srt, vtt, json | txt | | --device | 运行设备:cpu, cuda | cpu | | --keep-audio | 保留临时音频文件 | false |

模型选择指南

模型大小速度精度适用场景
tiny39M最快一般快速测试、短音频
base
74M | 快 | 良好 | 日常使用 | | small | 244M | 中等 | 较好 | 正式场合 | | medium | 769M | 慢 | 很好 | 高精度需求 | | large | 1550M | 最慢 | 最佳 | 专业转录 |

输出格式说明

TXT(纯文本)

这是转录的完整文本内容,适合阅读和编辑。

SRT(字幕格式)

1
00:00:01,000 --> 00:00:04,000
这是第一句字幕。

2
00:00:04,500 --> 00:00:07,000
这是第二句字幕。

VTT(Web 字幕)

WEBVTT

00:00:01.000 --> 00:00:04.000
这是第一句字幕。

00:00:04.500 --> 00:00:07.000
这是第二句字幕。

JSON(完整数据)

包含分段、时间戳、置信度等完整信息,适合程序处理。

支持的文件格式

音频: MP3, WAV, FLAC, OGG, M4A, AAC

视频: MP4, AVI, MOV, MKV, WEBM, FLV

性能优化建议

  1. 1. 短音频优先用 tiny/base 模型 - 速度快,精度够用
  2. 长内容用 CPU - 避免 GPU 内存不足
  3. 指定语言 - 可提升准确率和速度
  4. 批量处理 - 脚本可循环调用处理多个文件

常见问题

转录质量不佳

  • - 尝试更大的模型(small/medium/large)
  • 指定正确的语言代码
  • 确保音频质量清晰

处理速度慢

  • - 使用更小的模型(tiny/base)
  • 如有 GPU,使用 --device cuda
  • 缩短音频长度或分段处理

内存不足

  • - 使用更小的模型
  • 将长文件分割后分别处理
  • 关闭其他占用内存的程序

脚本

  • - scripts/transcribe.py - 主转录脚本

参考资料

标签

skill ai

通过对话安装

该技能支持在以下平台通过对话安装:

OpenClaw WorkBuddy QClaw Kimi Claude

方式一:安装 SkillHub 和技能

帮我安装 SkillHub 和 audio-video-to-text-1776193383 技能

方式二:设置 SkillHub 为优先技能安装源

设置 SkillHub 为我的优先技能安装源,然后帮我安装 audio-video-to-text-1776193383 技能

通过命令行安装

skillhub install audio-video-to-text-1776193383

下载

⬇ 下载 audio-video-to-text v1.0.0(免费)

文件大小: 5.18 KB | 发布时间: 2026-4-15 11:36

v1.0.0 最新 2026-4-15 11:36
Initial release of the audio-video-to-text skill.
- Converts audio/video files to text using OpenAI Whisper.
- Supports multiple formats: txt, SRT, VTT, and JSON.
- Handles various audio/video types: MP3, WAV, MP4, AVI, and more.
- Allows model selection for speed/accuracy trade-offs.
- Suitable for meeting notes, subtitles, interviews, and podcasts.

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
返回顶部