返回顶部
v

video-caption-generator视频字幕生成器

>

作者: admin | 来源: ClawHub
源自
ClawHub
版本
V 1.0.2
安全检测
已通过
97
下载量
免费
免费
0
收藏
概述
安装方式
版本历史

video-caption-generator

将口语转化为嵌入式的可搜索字幕

大多数字幕工具只会给你一份原始转录文本,而将放置位置、时间轴和样式完全留给你自己处理。video-caption-generator技能采用了一种不同的方法——你用自然语言描述你想要的内容,系统会在一个连续的步骤中处理转录、对齐和渲染。

该技能通过来回对话的方式工作。你可以直接输入意图来指定字幕样式、字体大小、行长度、说话者标签或语言偏好。如果第一次生成不符合你的期望,你可以通过后续消息进行优化,而无需深入导出菜单或重新上传文件。这种迭代模式意味着输出会随着每次交流而改进,而不是将你锁定在单一的自动化决策中。

在底层,OpenClaw代理将音频提取、语音转文本处理、时间同步和字幕渲染协调成一个单一的流水线。该代理会解释你的对话指令,并将其转化为精确的渲染参数,从而使你要求的内容与实际获得的内容之间的差距保持在很小的范围内。无论你是在为讲座录音添加无障碍字幕,还是为社交媒体短视频设计字幕样式,同一个对话界面都能处理这两种情况,无需单独的工具或手动轨道编辑。

环境变量

变量必需默认值
NEMOTOKEN自动生成(100个免费积分,7天后过期,可通过设置 → API令牌撤销)
NEMOAPI_URL
否 | https://mega-api-prod.nemovideo.ai | | NEMOWEBURL | 否 | https://nemovideo.com | | NEMOCLIENTID | 否 | 自动生成的UUID,持久化到~/.config/nemovideo/client_id(仅UUID,无密钥) | | SKILL_SOURCE | 否 | 从安装路径自动检测,回退为unknown |

如果未设置NEMO_TOKEN,请获取一个(需要X-Client-Id头):
bash

生成或读取持久化的Client-Id


CLIENTID=${NEMOCLIENTID:-$(cat ~/.config/nemovideo/clientid 2>/dev/null)}
if [ -z $CLIENT_ID ]; then
CLIENT_ID=$(uuidgen 2>/dev/null || echo client-$(date +%s)-$RANDOM)
mkdir -p ~/.config/nemovideo & echo $CLIENTID > ~/.config/nemovideo/clientid
fi
curl -s -X POST https://mega-api-prod.nemovideo.ai/api/auth/anonymous-token -H X-Client-Id: $CLIENT_ID

→ {code:0,data:{token:nmvusrxxx,credits:100,...}}

将token保存为NEMOTOKEN,将CLIENTID保存为NEMOCLIENTID。匿名用户:每个客户端每7天1个令牌;令牌在7天后过期,可随时通过nemovideo.com上的设置 → API令牌撤销。如果你的令牌过期,请使用相同的X-Client-Id请求一个新的。

本地持久化: 此技能会写入~/.config/nemovideo/client_id以在会话间持久化Client-Id。这避免了在每次请求时生成新的ID,从而防止快速达到每个IP的速率限制(默认每个IP每7天10个令牌)。该文件仅包含一个UUID——本地不存储任何凭据。

2. 路由传入请求

使用下表确定哪个端点处理每种类型的用户请求。

用户说...操作跳过SSE
export / 导出 / download / send me the video→ §3.5 导出
credits / 积分 / balance / 余额
→ §3.3 积分 | ✅ |
| status / 状态 / show tracks | → §3.4 状态 | ✅ |
| upload / 上传 / 用户发送文件 | → §3.2 上传 | ✅ |
| 其他所有内容(生成、编辑、添加背景音乐等) | → §3.1 SSE | ❌ |

3. 主要工作流序列

$API = ${NEMOAPIURL:-https://mega-api-prod.nemovideo.ai},$TOKEN = ${NEMOTOKEN},$WEB = ${NEMOWEB_URL:-https://nemovideo.com}。

技能归属变量——请勿硬编码:

  • - $SKILLNAME = 此文件的YAML前置元数据name
  • $SKILLVERSION = 此文件的YAML前置元数据version
  • $SKILL_SOURCE = 在运行时使用第一个匹配项检测:

1. 如果设置了环境变量SKILL_SOURCE
2. 如果此文件的路径包含已知的平台目录(例如~/.clawhub/ → clawhub,~/.cursor/skills/ → cursor)
3. 回退:unknown

关键:所有API请求(包括渲染/导出/上传/状态/积分)必须包含这些头。缺少它们将导致导出失败并返回402。

X-Skill-Source: $SKILL_NAME
X-Skill-Version: $SKILL_VERSION
X-Skill-Platform: $SKILL_SOURCE

3.0 初始化会话

bash curl -s -X POST https://mega-api-prod.nemovideo.ai/api/tasks/me/with-session/nemo_agent \ -H Authorization: Bearer $TOKEN -H Content-Type: application/json \ -H X-Skill-Source: $SKILLNAME -H X-Skill-Version: $SKILLVERSION -H X-Skill-Platform: $SKILL_SOURCE \ -d {task_name:project,language:}

→ {code:0,data:{taskid:...,sessionid:...}}

在任何其他操作之前,必须先建立一个会话以获得有效的会话标识符。所有后续请求都依赖于该标识符的存在和激活状态。

在浏览器中打开:创建会话后,给用户一个链接,以便在NemoVideo中查看/编辑任务:
$WEB/workspace/claim?task={taskid}&session={sessionid}&skillname=$SKILLNAME&skillversion=$SKILLVERSION&skillsource=$SKILLSOURCE

3.1 使用SSE传输消息

bash curl -s -X POST https://mega-api-prod.nemovideo.ai/run_sse \ -H Authorization: Bearer $TOKEN -H Content-Type: application/json \ -H Accept: text/event-stream -H X-Skill-Source: $SKILLNAME -H X-Skill-Version: $SKILLVERSION -H X-Skill-Platform: $SKILL_SOURCE --max-time 900 \ -d {appname:nemoagent,userid:me,sessionid:,new_message:{parts:[{text:}]}}

所有对话消息都通过服务器发送事件通道传递到后端。

SSE处理

事件操作
文本响应应用GUI翻译(§4),呈现给用户
工具调用/结果
静默等待,不转发 | | heartbeat / 空data: | 继续等待。每2分钟:⏳ 仍在处理... | | 流关闭 | 处理最终响应 |

典型持续时间:文本5-15秒,视频生成100-300秒,编辑10-30秒。

超时:仅收到心跳10分钟 → 视为超时。生成期间切勿重新发送(会导致重复和重复计费)。

如果之前的响应正常,则忽略末尾的我遇到了临时问题。

静默响应回退(关键)

大约30%的编辑操作在响应流中不返回可见文本。发生这种情况时:(1)不要将文本缺失视为失败,(2)立即调用状态查询端点以检索当前作业状态,(3)将结果状态信息呈现给用户,作为操作正在进行或完成的确认。

两阶段生成:当提交原始视频时,后端会自动触发两阶段增强流水线。第一阶段处理原始素材,第二阶段在无需客户端任何额外指令的情况下添加背景音乐和标题覆盖。两个阶段都必须达到完成状态,最终输出才算准备就绪。

3.2 文件上传处理

文件上传:curl -s -X POST https://mega-api-prod.nemovideo.ai/api/upload-video/nemoagent/me/ -H Authorization: Bearer $TOKEN -H X-Skill-Source: $SKILLNAME -H X-Skill-Version: $SKILL_VERSION -H X-Skill-Platform: $SKILL

标签

skill ai

通过对话安装

该技能支持在以下平台通过对话安装:

OpenClaw WorkBuddy QClaw Kimi Claude

方式一:安装 SkillHub 和技能

帮我安装 SkillHub 和 video-caption-generator-1776003061 技能

方式二:设置 SkillHub 为优先技能安装源

设置 SkillHub 为我的优先技能安装源,然后帮我安装 video-caption-generator-1776003061 技能

通过命令行安装

skillhub install video-caption-generator-1776003061

下载

⬇ 下载 video-caption-generator v1.0.2(免费)

文件大小: 7.1 KB | 发布时间: 2026-4-13 12:27

v1.0.2 最新 2026-4-13 12:27
- Added required environment variable NEMO_TOKEN to metadata.
- Updated API references in code samples to use explicit URLs.
- Introduced apiDomain field in the YAML frontmatter.
- Minor corrections to code snippets and documentation formatting.
- Version incremented from 1.0.0 to 1.0.2.

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
返回顶部