返回顶部
p

ppt-audio-to-videoPPT音频转视频

Convert narration audio plus slide decks into a narrated video. Use when the user has an audio-only `mp4/m4a/mp3/wav` and a `ppt/pptx/pdf` deck, and needs slide images, transcript extraction, slide timing planning, or final `mp4` rendering with `whisper-cpp` and `ffmpeg`.

作者: admin | 来源: ClawHub
源自
ClawHub
版本
V 0.1.0
安全检测
已通过
199
下载量
免费
免费
0
收藏
概述
安装方式
版本历史

ppt-audio-to-video

PPT 音频转视频

当源视频包含旁白音频但缺少可用的幻灯片画面,且最终交付物应为基于幻灯片的讲座视频时,请使用此技能。

解析与此技能目录相关的捆绑脚本。如果运行环境已打开此 SKILL.md,请优先使用 scripts/extractslideoutline.py 和 scripts/renderfromtiming_csv.py 等路径,而非特定机器的绝对路径。

核心工作流程

  1. 1. 盘点输入文件。
- 确认以下文件是否存在:纯音频 mp4/m4a/mp3/wav、ppt/pptx、pdf 以及任何预渲染的幻灯片图片。 - 优先使用现有的 pdf 或图片目录进行渲染。将 pptx 作为幻灯片文本的来源和导出时的备用方案。
  1. 2. 准备工具。
- 确定性步骤所需工具:ffmpeg、ffprobe、pdftoppm。 - 转录所需工具:来自 whisper-cpp 的 whisper-cli,以及多语言模型(如 ggml-small.bin)。 - 如果只有 pptx 而没有 pdf/图片,在 macOS 上优先使用 Keynote 或 PowerPoint 导出。仅将 soffice 作为备用方案,因为常出现配置文件或渲染问题。
  1. 3. 生成幻灯片图片。
- 如果存在 pdf,将其渲染为图片: bash pdftoppm -png -r 200 $PDF $OUTDIR/slide

- 如果只有 pptx,使用 Keynote 或 PowerPoint 导出为 pdf 或幻灯片图片,然后从 pdf 继续处理。
- 保持幻灯片文件名有序且稳定,例如 slide-01.png、slide-02.png……

  1. 4. 提取幻灯片文本。
- 运行: bash python3 scripts/extractslideoutline.py \ --pptx $PPTX \ --out $WORKDIR/slide_outline.csv

- 使用输出来识别幻灯片标题、独特关键词和章节变化。

  1. 5. 提取用于语音识别的纯净音频。
- 对于纯音频 mp4,提取单声道 wav: bash ffmpeg -y -i $AUDIOMP4 -ar 16000 -ac 1 -c:a pcms16le $WORKDIR/audio.wav

- 如果源文件已经是 wav/mp3/m4a,根据需要转换为相同的单声道 wav 格式。

  1. 6. 使用 whisper-cli 进行转录。
- 示例: bash whisper-cli -ng \ -m $MODEL \ -f $WORKDIR/audio.wav \ -l zh \ -ocsv -osrt -of $WORKDIR/transcript

- 优先使用 transcript.csv 进行下游解析。transcript.srt 适用于人工审核。
- 如果在 macOS 上 GPU 分配失败,使用 -ng 重试以强制使用 CPU 模式。

  1. 7. 构建 slide_timings.csv。
- 除非用户明确要求,否则不要平均幻灯片时长。 - 同时读取转录文本和幻灯片大纲,根据主题变化、章节边界和独特关键词创建单调递增的时间安排方案。 - 使用此架构: csv slide,startsec,endsec,duration_sec,reason 1,0.000,15.000,15.000,开场标题和议程 2,15.000,100.000,85.000,架构概述从此处开始

- 保持幻灯片编号连续,并确保 durationsec = endsec - start_sec。
- 验证最后一个 end_sec 与音频时长匹配或在可接受的小误差范围内。

  1. 8. 渲染最终视频。
- 运行: bash python3 scripts/renderfromtiming_csv.py \ --images $SLIDEIMAGESDIR \ --timings $WORKDIR/slide_timings.csv \ --audio $WORKDIR/audio.wav \ --output $OUT_VIDEO

- 该脚本生成 ffconcat 文件,验证时间连续性,并调用 ffmpeg 编码最终的 mp4。

  1. 9. 验证和迭代。
- 使用 ffprobe 检查输出时长。 - 如果某张幻灯片切换过早或过晚,仅编辑 slide_timings.csv 中受影响的行,然后重新运行渲染脚本。 - 保留转录文本、大纲和时间安排 CSV 作为可复现的工作文件。

时间对齐的启发式规则

  • - 章节分隔幻灯片使用时间宜短。这些幻灯片通常停留 5-20 秒。
  • 将第一个明确切换主题的片段作为下一张幻灯片的起始点。
  • 优先使用精确的主题转换点,而非标题词匹配。语音识别经常扭曲专有名词和产品名称。
  • 让模型推断时间安排,但通过 slide_timings.csv 保持渲染步骤的确定性。
  • 当置信度较低时,生成初版视频并告知用户哪些幻灯片边界可能需要审核。

常用命令

在 macOS 上安装缺失的依赖项:
bash
brew install ffmpeg poppler whisper-cpp

典型的多语言模型下载:
bash
mkdir -p .models
curl -L https://huggingface.co/ggerganov/whisper.cpp/resolve/main/ggml-small.bin -o .models/ggml-small.bin

捆绑脚本

  • - scripts/extractslideoutline.py
从 pptx 中提取幻灯片文本为 CSV 或 JSON 格式,用于时间分析。
  • - scripts/renderfromtiming_csv.py
验证时间安排 CSV,生成 ffconcat 文件,并使用 ffmpeg 渲染最终视频。

标签

skill ai

通过对话安装

该技能支持在以下平台通过对话安装:

OpenClaw WorkBuddy QClaw Kimi Claude

方式一:安装 SkillHub 和技能

帮我安装 SkillHub 和 ppt-audio-to-video-1776120808 技能

方式二:设置 SkillHub 为优先技能安装源

设置 SkillHub 为我的优先技能安装源,然后帮我安装 ppt-audio-to-video-1776120808 技能

通过命令行安装

skillhub install ppt-audio-to-video-1776120808

下载

⬇ 下载 ppt-audio-to-video v0.1.0(免费)

文件大小: 5.72 KB | 发布时间: 2026-4-15 13:58

v0.1.0 最新 2026-4-15 13:58
Initial ClawHub release.

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
返回顶部