返回顶部
a

ai-video-pipelineAI视频流水线

>

作者: admin | 来源: ClawHub
源自
ClawHub
版本
V 3.0.0
安全检测
已通过
169
下载量
免费
免费
1
收藏
概述
安装方式
版本历史

ai-video-pipeline

AI短视频创作管线 v17

从想法到成片的全流程:用户提出想法 → 脚本设计 → 人工确认 → 自动制作

用户只需关注内容创作,所有技术细节(分段、帧数、编码、片段铺满)由 agent 自动处理。

🎬 创作工作流(4阶段)

Phase 1: 需求收集

用户提出想法后,agent 自行判断是否需要补充信息:

自动判断需要补充的场景:

  • - 用户只给了极简描述(做个关于孤独的视频)→ 需要补充内容方向、受众、时长偏好
  • 用户未指定音色 → 默认使用大因先生(适合旁白/认知类),不用问
  • 用户未指定风格 → 默认写实电影质感,不用问
  • 用户明确说了完整文稿 → 跳过此阶段,直接进入 Phase 2

不需要问的: 音色(默认大因先生)、分辨率(默认720P)、帧率(默认24fps)、字幕样式(默认底部定位+四向描边)、视频片段(默认自动铺满)、文稿风格(自动匹配,见下文)
y_ratio=0.85(底部85%位置,多行向上扩展)
需要确认的: 内容方向、目标受众、总时长预期、是否有特殊风格要求

📝 文稿风格系统

目录: ~/.openclaw/skills/ai-video-pipeline/styles/

每个风格模板包含:人设、叙事结构、句式模板、范例片段、禁止事项。

可用风格:

标签风格适用场景语速
cognitive认知拆解职场/社会现象/权力结构/潜规则200-220字/分
emotional
情感共鸣 | 人生感悟/关系/成长/内心独白 | 180-200字/分 |
| deepread | 深度解读 | 行业分析/政策/趋势/商业逻辑 | 210-230字/分 |

自动匹配规则: 根据用户话题中的关键词自动选择风格(匹配规则见各模板文件头部)。用户也可手动指定。

使用流程:

  1. 1. 用户给话题 → agent 读取匹配的风格模板
  2. 按模板规则先整理「角度与痛点」(表面现象/痛点/角度/不敢说的话/突破方向),发用户确认
  3. 确认后用模板的句式模板完全重写文稿(不基于旧稿改)
  4. 用户标注哪里不像人话 → 针对性修改,通常2-3轮收敛

⚠️ 重要:不要跳过角度整理直接写文稿。先整理后确认再写。

Phase 2: 脚本设计

agent 根据需求完成脚本设计,输出完整的制作方案供用户确认:

方案格式:

📋 制作方案

📹 整体:约 XX 秒,X 个段落
🎵 音色:大因先生(旁白风格)
🎞️ 动画:即梦AI自动铺满(每个段落一个动画片段)

📝 脚本:



[段落1]

[段落2]

[段落3]



💰 预估成本:约 ¥X(即梦AI ¥0.28/秒 × 预估总秒数)

确认后开始制作。有修改意见请直接说。

脚本设计规则:

  • - 每段 15-35 字(确保单段 ≤ 10s),段落间空行分隔
  • 总时长控制在 30-90 秒(短视频最佳区间)
  • 不要为每个段落手动写即梦AI prompt — 自动铺满模式会用段落原文作为 prompt

Phase 3: 人工确认

  • - 等待用户明确确认(可以、开始、确认等)
  • 用户可提出修改:调整脚本内容、换音色、改风格、增减段落
  • 修改后重新展示方案,再次等待确认
  • 未确认前不执行任何制作操作

Phase 4: 自动制作

确认后,agent 调用 build_video.py 一键生成:

bash
cd /tmp/video-poc && python3 -u ~/.openclaw/skills/ai-video-pipeline/scripts/build_video.py script.txt -o output.mp4

管线自动执行(无需 agent 手动编排):

  1. 1. TTS:播客API 生成语音 + 字幕时间轴(自动缓存 subs.json,重跑跳过)
  2. BGM 混音:自动选择 BGM(35% 音量,2s 淡入淡出),ffmpeg 混合
  3. 即梦AI视频片段每个段落自动生成一个动画片段,铺满整个时长(用段落原文作 prompt)
  4. 视频合成:预提取帧 + frame_map + 字幕叠加 → MP4
  5. 通过飞书发送 MP4 给用户

⚠️ 耗时较长:即梦AI 串行生成 ~30s/clip,总耗时 = 30s × 段落数 + ~2min合成

agent 在制作期间的职责:

  • - 执行 build_video.py 命令(后台运行)
  • 定期 poll 进度,给用户反馈
  • 完成后自动发送视频

发送格式:

🎬 视频制作完成!

时长:XX秒 | 段落:X个 | 大小:XXMB
视觉:即梦AI动画 × N(自动铺满)
成本:约 ¥X

技术参考

环境变量(~/.config/openclaw/gateway.env)

变量用途
VOLCAPPID火山播客API
VOLCACCESSKEY
火山播客API | | VOLCAPPKEY | 火山播客API | | VOLCACCESSKEY_ID | 即梦AI IAM | | VOLCSECRETKEY | 即梦AI IAM | | MINIMAXAPIKEY | MiniMax 音乐生成 |

模块结构

~/.openclaw/skills/ai-video-pipeline/
├── scripts/
│ ├── build_video.py # 入口,一键构建(v17)
│ ├── tts.py # 火山播客API TTS
│ ├── bgm.py # BGM 选择 + ffmpeg 混音
│ ├── subtitle.py # 字幕渲染(PIL 底部定位+四向描边)
│ ├── compose.py # 视频合成(预提取帧 + frame_map)
│ ├── clips.py # 即梦AI 片段生成编排(调用 jimeng_video)
│ ├── jimeng_video.py # 即梦AI 文生视频 API 封装
│ └── asr.py # FunASR 字幕时间轴对齐(原文标点分句)
├── styles/ # 文稿风格模板(自动匹配)
│ ├── cognitive.md # 认知拆解(职场/社会现象/潜规则)
│ ├── emotional.md # 情感共鸣(人生感悟/关系/成长)
│ └── deepread.md # 深度解读(行业分析/趋势/商业逻辑)
└── bgm/ # BGM 背景音乐

Python API

python
from scripts.build_video import build

⭐ 推荐:自动铺满模式(每个段落一个动画片段)

output, subs = build(scripttext, output.mp4, workdir=/tmp/video-poc)

videoclipconfigs 默认 auto,自动为每个段落生成即梦AI片段

手动指定片段配置(可选,一般不需要)

output, subs = build( script_text, output.mp4, videoclipconfigs=[ {prompt: 描述文字, mode: t2v_720p}, ] )

仅 TTS + BGM + 字幕(不要动画片段)

output, subs = build(scripttext, output.mp4, videoclip_configs=[])

CLI

bash

自动铺满(默认)


python3 build_video.py script.txt -o output.mp4

不生成动画片段

python3 build_video.py script.txt -o output.mp4 --no-clips

仅生成音频

python3 build_video.py script.txt --tts-only

可用音色

名称ID风格
大因先生zhmaledayixianshengv2saturnbigtts沉稳旁白(⭐ 默认)
咪仔
zhfemalemizaitongxuev2saturnbigtts | 清新女声 | | 刘飞 | zhmaleliufeiv2saturn_bigtts | 活力男声 |

###

标签

skill ai

通过对话安装

该技能支持在以下平台通过对话安装:

OpenClaw WorkBuddy QClaw Kimi Claude

方式一:安装 SkillHub 和技能

帮我安装 SkillHub 和 ai-video-pipeline-1776062961 技能

方式二:设置 SkillHub 为优先技能安装源

设置 SkillHub 为我的优先技能安装源,然后帮我安装 ai-video-pipeline-1776062961 技能

通过命令行安装

skillhub install ai-video-pipeline-1776062961

下载

⬇ 下载 ai-video-pipeline v3.0.0(免费)

文件大小: 31.42 KB | 发布时间: 2026-4-14 13:47

v3.0.0 最新 2026-4-14 13:47
v3.0.0 — FunASR 字幕对齐 + BGM 音量调优

## 核心修复
- **FunASR 分句重构**: 用原始文稿标点分句(仅 ,。?!),替代旧的 25 字硬切
- 旧方案: ASR 无标点 → 整段返回 → 25 字盲切(断句处 mid-sentence)
- 新方案: 原文标点对齐 ASR 时间戳,精确到毫秒
- **字幕标点清理**: 句尾自动去掉逗号/句号(rstrip),保留问号/感叹号
- **BGM 默认音量**: 12% → 35%(衬托旁白但不抢戏)

## 技术细节
- asr.py: 重写 align_subtitles(),新增 _split_by_script_punctuation()
- bgm.py: mix_audio_with_bgm() 默认 volume 0.12→0.35
- build_video.py: --bgm-volume 默认 0.12→0.35
- 验证: 85 句精确分句,0 错误

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
返回顶部