Auto Video Editing（自动视频剪辑）

根据语音内容，将口播/脱口秀类视频按句子自动切分，然后按用户选择合成带字幕的最终视频。

Prerequisites（前置要求）

在执行任何操作之前，先运行环境检测：

CODEBLOCK0

这会自动检测平台（macOS/Linux/WSL/Windows）、GPU 类型、可用编码器、Whisper 引擎，并给出诊断报告。

如果缺少依赖，提示用户安装：

- ffmpeg: brew install ffmpeg（macOS）或 apt install ffmpeg（Linux/WSL）或下载 Windows 版本
whisper: pip install faster-whisper（推荐，速度快 4 倍）或 INLINECODE3
中国用户加速安装：INLINECODE4

如果项目根目录有 .venv 虚拟环境，运行 Python 脚本前先激活：
CODEBLOCK1

平台说明

- macOS (Apple Silicon): 自动使用 VideoToolbox 硬件编码加速，Whisper 推荐 large-v3-turbo 模型
macOS (Intel): 使用 VideoToolbox 编码，Whisper 使用 CPU 模式
Linux: 自动检测 NVIDIA GPU (NVENC)、Intel QSV、AMD AMF
WSL: 支持，自动检测 Windows 字体路径 (/mnt/c/Windows/Fonts/)
Windows: 建议使用 WSL2 环境运行；支持 QSV/AMF 硬件编码
无独显 (集成显卡): Intel iGPU 使用 QSV 编码，AMD iGPU 使用 AMF 编码；Whisper 建议 medium 模型（而非 large）
中国用户: 自动检测中国区域，使用清华 pip 镜像和 HuggingFace 镜像下载模型，也可通过 --mirror 参数强制启用

Workflow（工作流程）

Phase 1: Audio Extraction（音频提取）

对每个输入视频文件，使用 extract_audio.py 提取音频：

CODEBLOCK2

输出：与视频同目录下的 <video_name>_audio.wav 文件。

Phase 2: Speech Recognition（语音识别）

使用 transcribe.py 对音频进行语音识别，生成带时间戳的逐句文本：

CODEBLOCK3

- --model auto：根据硬件自动选择最佳模型（NVIDIA GPU → large-v3，Apple Silicon → large-v3-turbo，集成显卡 → medium，纯 CPU → small）
也可手动指定：tiny, base, small, medium, large-v3, INLINECODE15
INLINECODE16：自动检测 faster-whisper（推荐）或 openai-whisper
INLINECODE17：中国用户使用镜像源下载模型
INLINECODE18：zh（中文），en（英文），ja（日文）等，也可省略让 whisper 自动检测

输出：与音频同目录下的 <video_name>_transcript.json 文件，格式如下：

CODEBLOCK4

转录后检查：如果文本中有明显的识别错误（如产品名、专有名词），应修正 transcript.json 中的文字后再进行后续步骤。

Phase 3: Video Splitting（视频切分）

使用 split_video.py 根据转录结果将视频切分为独立片段：

CODEBLOCK5

输出：在视频同目录下创建 <video_name>_clips/ 文件夹，包含按句子编号命名的片段文件，如 clip_001.mp4, clip_002.mp4 等。

注意：

- 默认 padding 为 0（片段间无重叠），避免合成时出现重复音频。
使用精确重编码切割（-ss 后置 + re-encode），确保音频在句子边界精确切断。

Phase 3.5: Subtitle Burning（字幕烧录）

使用 burn_subtitles.py 为每个片段烧录字幕：

CODEBLOCK6

字幕行为：

- 自动检测语言：中文内容自动使用中文字幕，英文内容使用英文字幕。
自动折行：长字幕自动分成两行，不会超出屏幕边界。
竖屏优化：字体大小按短边（宽度）缩放，字幕位置在画面 72% 高度处，适配小红书等竖屏平台。
中文字体优先级：

1. 首先尝试从 Google Fonts 下载 Noto Sans SC（会缓存到 skill 的 fonts/ 目录）
2. 如果下载失败，macOS 使用 PingFang SC（苹方）；Windows 使用 Microsoft YaHei（微软雅黑）

- 可用 --font-path 指定自定义字体文件
可用 --font-size 调整字号（默认 48，基于 1080p 自动缩放）

输出：<video_name>_clips_subtitled/ 目录，包含带字幕的片段。

注意：此步骤完成后，Phase 4-5 中应使用 _clips_subtitled/ 目录而非 _clips/ 目录。

Phase 4: User Interaction（用户交互）

展示片段列表给用户，格式如下：

CODEBLOCK7

如果有多个视频文件，分别展示每个视频的片段列表，让用户跨视频选择。
选好后可将来自不同视频的片段复制到同一个临时目录中，按顺序重新编号后合成。

等待用户回复选择后，进入 Phase 5。

Phase 5: Merge & Export（合成导出）

使用 merge_clips.py 将用户选择的片段合成为最终视频：

CODEBLOCK8

- --select：用户选择的片段编号，支持 1-4（范围）、1,3,5（逐个）、1-4,6,8-10（混合）。
INLINECODE37：输出文件路径，默认为 <clips_dir>/../<video_name>_final.mp4。

输出：合成后的最终视频文件。

Phase 6: Cover Generation（封面生成）

合成完成后，为视频生成封面图片。

交互流程：

1. 询问用户是否要为视频命名以及封面标题怎么写。
如果用户提供了标题，直接使用该标题。
如果用户没有特别要求，先从 transcript JSON 中读取所有句子文本，然后 站在观众的角度 总结出一个吸引人的封面标题：

- 标题应简短有力（建议 6-15 个字）
- 从观众视角出发，突出视频的核心看点或价值
- 例如：「3 分钟学会拍小红书封面」而非「我今天教大家拍封面」

4. 确认标题后，使用 generate_cover.py 将封面写入视频：

CODEBLOCK9

- --title：封面上显示的标题文字
INLINECODE40：转录 JSON 路径（当未提供 --title 时，脚本会输出全文供 AI 总结）
INLINECODE41：可选，指定自定义字体
INLINECODE42：可选，指定输出路径，默认为 INLINECODE43

注意：

- 封面标题会自动过滤特殊字符和 emoji，避免乱码。
脚本会提取视频第一帧，叠加白色粗体标题文字（带黑色描边和阴影），然后将这一帧替换回视频的第一帧，生成新的视频文件。原视频不会被修改。
中文字体使用与字幕相同的查找逻辑（Google Noto Sans SC > 系统字体）。

输出：INLINECODE44

Phase 7: Chapter Timeline Bar（章节时间轴）

为最终视频添加可视化的章节进度条。

使用 addchapter_bar.py 在视频上叠加章节时间轴：

CODEBLOCK10

自动行为：

- 根据 transcript 自动将视频分为若干章节（每章约 15-30 秒，最多 8 章）
每章使用不同颜色的色块，带白色播放进度指示
章节切换时自动显示章节标题（3 秒后淡出）
横屏视频：时间轴在视频底部，章节标题在时间轴上方
竖屏视频：时间轴在视频顶部（避开底部平台 UI），章节标题在时间轴下方

也可以提供自定义章节 JSON：

CODEBLOCK11

chapters.json 格式：
CODEBLOCK12

参数说明：

- --transcript：从转录 JSON 自动生成章节
INLINECODE46：使用自定义章节 JSON
INLINECODE47（默认）：彩色分段，每章不同颜色
INLINECODE48：单色风格，灰白交替，更简约
INLINECODE49：自动分章的最大章节数（默认 8）
INLINECODE50：自定义字体
INLINECODE51：输出路径，默认为 INLINECODE52

输出：<video_name>_chapters.mp4，同时在终端打印 YouTube 兼容的章节时间戳。

Phase 8: Post-merge Validation（合成后验证）

合成完成后，对最终视频执行一次验证流程：

1. 提取最终视频的音频
重新进行语音识别
检查识别结果中是否存在相邻片段的文字重复（前一句末尾 2-3 个字与后一句开头重复）
如发现技术性重复（非自然语言重复），需要回到 Phase 3 重新切分相关片段

Important Notes（注意事项）

1. 精确切割：视频切分使用重编码模式（非 stream copy），确保音频在句子边界精确切断，避免相邻片段出现重复的尾音。
多视频处理：如果用户提供多个视频，对每个视频独立执行 Phase 1-3.5，然后在 Phase 4 统一展示所有视频的片段列表，支持跨视频混合选择片段。
识别模型选择：中文视频建议使用 large 模型，base/small 模型中文识别率较低。large 模型约需 2.9GB 下载空间。
工作目录：所有中间文件（音频、转录、片段）都保存在视频文件所在目录下，便于管理。
错误处理：如果某一步失败，向用户报告具体错误信息，并建议可能的解决方案。
字幕字体：ffmpeg 需要编译包含 libass 和 libfreetype。macOS 可通过 brew install ffmpeg 获取。
竖屏适配：字幕位置和字体大小已针对 9:16 竖屏视频（如小红书、抖音）优化。横屏视频同样支持。
速度调整：如需调整播放速度，可使用 ffmpeg：

CODEBLOCK13

FAQ / Troubleshooting（常见问题诊断）

遇到错误时，先运行环境诊断：
CODEBLOCK14

Q1: `No such filter: 'drawtext'` 或 `No such filter: 'ass'`

原因：ffmpeg 编译时未包含 libfreetype（drawtext 所需）或 libass（字幕所需）。

诊断：

ffmpeg -hide_banner -filters 2>/dev/null | grep -E "drawtext|ass|subtitles"

如果无输出，说明缺少对应滤镜。

解决：

- macOS：标准 brew install ffmpeg 可能不包含这些库。使用第三方 tap 安装完整版：

  brew tap homebrew-ffmpeg/ffmpeg
  brew install homebrew-ffmpeg/ffmpeg/ffmpeg --with-fdk-aac

该 tap 默认启用 --enable-libfreetype --enable-libass --enable-libfontconfig。

- Linux/WSL：apt install ffmpeg 通常已包含。如果缺少，安装开发依赖后从源码编译：

  sudo apt install libfreetype6-dev libfontconfig1-dev libass-dev

- 影响范围：缺少 drawtext 时，字幕烧录（burnsubtitles.py）、封面文字（generatecover.py）和章节标题标签会失败或自动降级。章节进度条的色块和播放头不受影响（仅使用 drawbox）。

Q2: `Undefined constant or missing '(' in 'iw*0.5-tw/2'`

原因：ffmpeg drawtext 的 x 表达式中使用了 tw（text width），但某些 ffmpeg 版本中 tw 在 x 参数的上下文中不可用。

解决：脚本已修复此问题（使用像素值 {pixel_x}-text_w/2 代替 iw*{frac}-tw/2）。如果你修改了脚本并遇到此错误，请使用 text_w 而非 tw，并确保 x 表达式中不包含 iw* 动态计算。

Q3: `Invalid alpha value specifier '%{eif:...}'` (drawtext fontcolor)

原因：试图在 fontcolor 参数中嵌入 %{eif} 表达式来实现透明度渐变，但 ffmpeg 不支持在颜色值中使用此语法。

解决：使用 drawtext 的 alpha 参数（独立于 fontcolor），而非试图在 fontcolor=white@'%{eif:...}' 中嵌入表达式。正确写法：

drawtext=text='hello':fontcolor=white:alpha='if(lt(t,1),t,1)'

错误写法（会报错）：
CODEBLOCK19

Q4: ffmpeg 硬件编码器失败 (`h264_videotoolbox` / `h264_nvenc` / `h264_qsv` 报错)

原因：检测到的硬件编码器不支持当前的视频参数（如特殊分辨率、色彩空间），或驱动版本不兼容。

诊断：
CODEBLOCK20

解决：在脚本命令后添加 --force-cpu 参数（如脚本支持），或手动替换编码参数。也可以在 scripts/utils.py 中临时修改 get_ffmpeg_encoder() 函数，让它直接返回 ("libx264", ["-preset", "fast", "-crf", "18"])。

Q5: 中文字幕显示为方框（豆腐块）

原因：系统中没有可用的中文字体文件。

诊断：

python3 -c "from scripts.utils import find_chinese_font; print(find_chinese_font())"

如果返回 (None, ...)，说明未找到中文字体。

解决：

- macOS：系统自带 PingFang SC，一般不会出现此问题。
Linux/WSL：安装中文字体包：

  sudo apt install fonts-noto-cjk

- WSL 备选：脚本会自动尝试 /mnt/c/Windows/Fonts/msyh.ttc（微软雅黑），前提是 Windows 已安装该字体。
手动指定：使用 --font-path /path/to/your/font.ttf 参数。
自动下载：脚本首次运行时会尝试从 Google Fonts（中国用户使用 jsDelivr CDN）下载 Noto Sans SC，缓存到 fonts/ 目录。

Q6: Whisper 模型下载失败 / 超时

原因：网络问题，尤其是中国用户无法访问 HuggingFace。

解决：

- 使用 --mirror 参数：INLINECODE96
或手动设置环境变量：

  export HF_ENDPOINT=https://hf-mirror.com

- 使用 faster-whisper 时，模型从 HuggingFace 下载；设置 HF_ENDPOINT 后会自动走镜像。
使用 openai-whisper 时，模型从 GitHub 下载，中国用户可能需要代理。建议改用 faster-whisper。

Q7: `pip install faster-whisper` 安装失败 / 超时

解决：中国用户使用清华镜像：
CODEBLOCK24

Q8: WSL 环境下 ffmpeg 找不到或版本过旧

诊断：
CODEBLOCK25

解决：

sudo apt update && sudo apt install ffmpeg

如果系统源的 ffmpeg 版本过旧（< 4.0），使用 PPA：
CODEBLOCK27

Auto Video Editing（自动视频剪辑）

根据语音内容，将口播/脱口秀类视频按句子自动切分，然后按用户选择合成带字幕的最终视频。

Prerequisites（前置要求）

在执行任何操作之前，先运行环境检测：

bash
python3 scripts/utils.py

这会自动检测平台（macOS/Linux/WSL/Windows）、GPU 类型、可用编码器、Whisper 引擎，并给出诊断报告。

如果缺少依赖，提示用户安装：

- ffmpeg: brew install ffmpeg（macOS）或 apt install ffmpeg（Linux/WSL）或下载 Windows 版本
whisper: pip install faster-whisper（推荐，速度快 4 倍）或 pip install openai-whisper
中国用户加速安装：pip install faster-whisper -i https://pypi.tuna.tsinghua.edu.cn/simple

如果项目根目录有 .venv 虚拟环境，运行 Python 脚本前先激活：
bash
source .venv/bin/activate # macOS/Linux/WSL

Windows: .venv\Scripts\activate

平台说明

- macOS (Apple Silicon): 自动使用 VideoToolbox 硬件编码加速，Whisper 推荐 large-v3-turbo 模型
macOS (Intel): 使用 VideoToolbox 编码，Whisper 使用 CPU 模式
Linux: 自动检测 NVIDIA GPU (NVENC)、Intel QSV、AMD AMF
WSL: 支持，自动检测 Windows 字体路径 (/mnt/c/Windows/Fonts/)
Windows: 建议使用 WSL2 环境运行；支持 QSV/AMF 硬件编码
无独显 (集成显卡): Intel iGPU 使用 QSV 编码，AMD iGPU 使用 AMF 编码；Whisper 建议 medium 模型（而非 large）
中国用户: 自动检测中国区域，使用清华 pip 镜像和 HuggingFace 镜像下载模型，也可通过 --mirror 参数强制启用

Workflow（工作流程）

Phase 1: Audio Extraction（音频提取）

对每个输入视频文件，使用 extract_audio.py 提取音频：

bash
python3 scripts/extractaudio.py path>

输出：与视频同目录下的 name>audio.wav 文件。

Phase 2: Speech Recognition（语音识别）

使用 transcribe.py 对音频进行语音识别，生成带时间戳的逐句文本：

bash
python3 scripts/transcribe.py --model auto --language zh

- --model auto：根据硬件自动选择最佳模型（NVIDIA GPU → large-v3，Apple Silicon → large-v3-turbo，集成显卡 → medium，纯 CPU → small）
也可手动指定：tiny, base, small, medium, large-v3, large-v3-turbo
--engine auto：自动检测 faster-whisper（推荐）或 openai-whisper
--mirror：中国用户使用镜像源下载模型
--language：zh（中文），en（英文），ja（日文）等，也可省略让 whisper 自动检测

输出：与音频同目录下的 name>transcript.json 文件，格式如下：

json
{
segments: [
{id: 1, start: 0.0, end: 2.5, text: 大家好},
{id: 2, start: 2.5, end: 5.1, text: 今天我们来聊一个话题}
]
}

转录后检查：如果文本中有明显的识别错误（如产品名、专有名词），应修正 transcript.json 中的文字后再进行后续步骤。

Phase 3: Video Splitting（视频切分）

使用 split_video.py 根据转录结果将视频切分为独立片段：

bash
python3 scripts/splitvideo.py path> jsonpath>

输出：在视频同目录下创建 name>clips/ 文件夹，包含按句子编号命名的片段文件，如 clip001.mp4, clip002.mp4 等。

注意：

- 默认 padding 为 0（片段间无重叠），避免合成时出现重复音频。
使用精确重编码切割（-ss 后置 + re-encode），确保音频在句子边界精确切断。

Phase 3.5: Subtitle Burning（字幕烧录）

使用 burn_subtitles.py 为每个片段烧录字幕：

bash
python3 scripts/burnsubtitles.py dir> jsonpath>

字幕行为：

- 自动检测语言：中文内容自动使用中文字幕，英文内容使用英文字幕。
自动折行：长字幕自动分成两行，不会超出屏幕边界。
竖屏优化：字体大小按短边（宽度）缩放，字幕位置在画面 72% 高度处，适配小红书等竖屏平台。
中文字体优先级：

1. 首先尝试从 Google Fonts 下载 Noto Sans SC（会缓存到 skill 的 fonts/ 目录）
2. 如果下载失败，macOS 使用 PingFang SC（苹方）；Windows 使用 Microsoft YaHei（微软雅黑）

- 可用 --font-path 指定自定义字体文件
可用 --font-size 调整字号（默认 48，基于 1080p 自动缩放）

输出：name>clips_subtitled/ 目录，包含带字幕的片段。

注意：此步骤完成后，Phase 4-5 中应使用 clipssubtitled/ 目录而非 _clips/ 目录。

Phase 4: User Interaction（用户交互）

展示片段列表给用户，格式如下：

视频片段列表：
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
# | 时间区间 | 内容
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
1 | 00:00.0 - 00:02.5 | 大家好
2 | 00:02.5 - 00:05.1 | 今天我们来聊一个话题
3 | 00:05.1 - 00:08.3 | 这个话题非常有意思
...
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

请选择要合成的片段（示例）：
- 连续范围：1-10
- 多个片段：1,3,5,7
- 混合选择：1-4,6,8-10

等待用户回复选择后，进入 Phase 5。

Phase 5: Merge & Export（合成导出）

使用 merge_clips.py 将用户选择的片段合成为最终视频：

bash
python3 scripts/mergeclips.py dir> --select 1-4,6,8 --output

- --select：用户选择的片段编号，支持 1-4（范围）、1,3,5（逐个）、1-4,6,8-10（混合）。
--output：输出文件路径，默认为 dir>/../name>_final.mp4。

输出：合成后的最终视频文件。

Phase 6: Cover Generation（封面生成）

合成完成后，为视频生成封面图片。

交互流程：

1. 询问用户是否要为视频命名以及封面标题怎么写。
如果用户提供了标题，直接使用该标题。
如果用户没有特别要求，先从 transcript JSON 中读取所有句子文本，然后 站在观众的角度 总结出一个吸引人的封面标题：

- 标题应简短有力（建议 6-15 个字）
- 从观众视角出发，突出视频的核心看点或价值
- 例如：「3 分钟学会拍小红书封面」而非「我今天教大家拍封面」

4. 确认标题后，使用 generate_cover.py 将封面写入视频：

bash
python3 scripts/generatecover.py videopath> --title 封面标题文字 --transcript json_path>

- --

video-editing视频编辑

video-editing

Auto Video Editing（自动视频剪辑）

Prerequisites（前置要求）

平台说明

Workflow（工作流程）

Phase 1: Audio Extraction（音频提取）

Phase 2: Speech Recognition（语音识别）

Phase 3: Video Splitting（视频切分）

Phase 3.5: Subtitle Burning（字幕烧录）

Phase 4: User Interaction（用户交互）

Phase 5: Merge & Export（合成导出）

Phase 6: Cover Generation（封面生成）

Phase 7: Chapter Timeline Bar（章节时间轴）

Phase 8: Post-merge Validation（合成后验证）

Important Notes（注意事项）

FAQ / Troubleshooting（常见问题诊断）

Q1: No such filter: 'drawtext' 或 No such filter: 'ass'

Q2: Undefined constant or missing '(' in 'iw*0.5-tw/2'

Q3: Invalid alpha value specifier '%{eif:...}' (drawtext fontcolor)

Q4: ffmpeg 硬件编码器失败 (h264_videotoolbox / h264_nvenc / h264_qsv 报错)

Q5: 中文字幕显示为方框（豆腐块）

Q6: Whisper 模型下载失败 / 超时

Q7: pip install faster-whisper 安装失败 / 超时

Q8: WSL 环境下 ffmpeg 找不到或版本过旧

Auto Video Editing（自动视频剪辑）

Prerequisites（前置要求）

Windows: .venv\Scripts\activate

平台说明

Workflow（工作流程）

Phase 1: Audio Extraction（音频提取）

Phase 2: Speech Recognition（语音识别）

Phase 3: Video Splitting（视频切分）

Phase 3.5: Subtitle Burning（字幕烧录）

Phase 4: User Interaction（用户交互）

Phase 5: Merge & Export（合成导出）

Phase 6: Cover Generation（封面生成）

标签

通过对话安装

方式一：安装 SkillHub 和技能

方式二：设置 SkillHub 为优先技能安装源

通过命令行安装

下载

相关推荐

self-improvement

self-improvement

self-improvement

self-improvement

Q1: `No such filter: 'drawtext'` 或 `No such filter: 'ass'`

Q2: `Undefined constant or missing '(' in 'iw*0.5-tw/2'`

Q3: `Invalid alpha value specifier '%{eif:...}'` (drawtext fontcolor)

Q4: ffmpeg 硬件编码器失败 (`h264_videotoolbox` / `h264_nvenc` / `h264_qsv` 报错)

Q7: `pip install faster-whisper` 安装失败 / 超时