返回顶部
o

openclaw-vln-planner视觉语言导航规划

Plan the next high-level navigation step for a robot from a user navigation instruction, one current image, and a sequence of historical images. Use when the task is vision-language navigation, closed-loop replanning, multimodal next-action prediction, or converting visual observations into a single structured JSON navigation action for an OpenAI-compatible multimodal gateway and a separate execution bridge.

作者: admin | 来源: ClawHub
源自
ClawHub
版本
V 1.0.0
安全检测
已通过
107
下载量
免费
免费
0
收藏
概述
安装方式
版本历史

openclaw-vln-planner

OpenClaw VLN 规划器

当用户希望机器人根据视觉观测遵循自然语言导航指令时,使用此技能。

此技能是一个高级导航规划器。它产生电机、关节、扭矩或轨迹控制。它每次只产生一个结构化的中级导航动作

触发条件

当任务包含以下一项或多项时触发此技能:

  • - 视觉语言导航(VLN)
  • 基于摄像头图像的机器人下一步规划
  • 每次观测后重新规划的闭环导航
  • 将当前帧和历史帧转换为单个下一步导航动作
  • 将当前图像和历史图像发送到兼容OpenAI的多模态网关进行动作预测

必需输入

规划器需要:

  • - userinstruction:自然语言导航指令
  • currentframe:恰好一张当前图像
  • history_frames:按时间顺序的零张或多张历史图像

可选输入:

  • - robotstate:朝向、速度、位姿估计、执行反馈等
  • safetyflags:阻塞、碰撞风险、丢失、目标到达、低能见度等
  • config_path:运行时配置文件路径

输出约定

输出必须仅为纯JSON。不要添加任何前言或后语。

仅允许的动作类型:

  • - MOVEFORWARD
  • TURNLEFT
  • TURN_RIGHT
  • STOP

预期的JSON格式:

json
{
next_action: {
type: MOVE_FORWARD,
value: 75,
unit: cm
},
taskstatus: inprogress,
confidence: 0.87,
notes: 沿着走廊继续前进
}

完成示例:

json
{
next_action: {
type: STOP
},
task_status: completed,
confidence: 0.93,
notes: 目标已到达
}

核心规则

  1. 1. 仅规划下一步动作
  2. 绝不输出完整路线。
  3. 每一步执行后重新规划。
  4. 如果不确定、不安全、被阻塞、无法解析或视觉模糊,输出STOP。
  5. 强制执行动作范围:
- MOVE_FORWARD:10-150厘米 - TURN_LEFT:5-90度 - TURN_RIGHT:5-90度 - STOP:不需要值/单位
  1. 6. 如果safetyflags.targetreached == true,输出STOP且taskstatus = completed。
  2. 如果存在blocked、collisionrisk、lost或严重不确定性,优先输出STOP。

运行时配置

运行前,加载一个YAML配置文件,如config/vln-config.yaml。

配置应定义:

  • - 用于当前帧和历史帧采集的订阅或逻辑输入主题/通道
  • 可选的机器人状态和安全标志来源
  • 兼容OpenAI的多模态网关设置:baseurl、apikey、model_id
  • 规划器行为,如置信度阈值和安全回退
  • 执行器桥接模式(默认:Python函数桥接)

参考references/navigation-schema.md了解预期的配置结构。

内部模块设计

1) 上下文构建器

从以下内容构建模型输入负载:
  • - 用户指令
  • 历史观测
  • 当前观测
  • 可选的机器人状态
  • 可选的安全标志

提示必须明确区分:

  • - 历史观测
  • 当前观测
  • 用户指令

2) 动作规划器

调用兼容OpenAI的多模态网关,包含:
  • - 一张当前图像
  • 历史图像
  • 规划器提示
  • 可选的结构化上下文

模型应被要求返回恰好一个下一步动作的纯JSON。

3) 动作解析器

将模型结果解析为JSON。

如果解析失败:

  • - 尝试安全提取第一个JSON对象
  • 如果仍然无效,回退到STOP

4) 动作验证器

验证:
  • - 动作类型是四个允许值之一
  • 距离和角度范围合法
  • 单位与动作类型匹配
  • 置信度(如果存在)为数值
  • taskstatus为inprogress、completed、failed之一

任何无效输出回退到STOP。

5) 执行器桥接

将验证后的中级动作转发到单独的执行层。

保留的Python桥接接口:

  • - executemoveforward(distancecm)
  • executeturnleft(angledeg)
  • executeturnright(angledeg)
  • executestop()
  • getrobotstate()
  • getsafetyflags()

不要将机器人SDK硬编码到规划器逻辑中。

6) 重新规划循环

在闭环中使用规划器:
  1. 1. 收集当前帧和历史帧
  2. 收集可选的机器人状态/安全标志
  3. 调用多模态规划器
  4. 解析和验证JSON动作
  5. 通过桥接执行
  6. 再次观测
  7. 重复直到task_status = completed或强制停止

7) 安全回退

在以下情况始终停止:
  • - 解析失败
  • 无效动作
  • 置信度低于阈值
  • 阻塞/碰撞风险/丢失/目标到达
  • 缺少安全移动的视觉证据

提示模板

使用此提示模式:

text
你是一个机器人导航规划器。
你将收到:

  1. 1. 历史观测
  2. 当前观测
  3. 用户指令
  4. 可选的机器人状态和安全标志

你的任务是决定机器人下一步的单个中级导航动作。
你只能输出以下动作之一:

  • - MOVEFORWARD,距离以厘米为单位
  • TURNLEFT,角度以度为单位
  • TURN_RIGHT,角度以度为单位
  • STOP

规则:

  • - 仅规划下一步,而不是整条路线。
  • 如果目标已到达,输出STOP。
  • 如果不确定、场景不清晰或存在任何安全风险,输出STOP。
  • MOVEFORWARD必须在10-150厘米之间。
  • TURNLEFT和TURN_RIGHT必须在5-90度之间。
  • 仅输出纯JSON,不附带任何额外解释。

示例用户请求

  • - 沿着走廊走,在蓝色门前停下。
  • 移动到厨房入口。
  • 找到走廊尽头并停下。
  • 在下一个路口右转并继续前进。

失败处理

如果输出有任何问题,返回:

json
{
next_action: {
type: STOP
},
task_status: failed,
confidence: 0.0,
notes: fallback_stop
}

捆绑资源

  • - references/navigation-schema.md:模式、范围、安全回退、示例、配置契约
  • scripts/vln_bridge.py:示例兼容OpenAI的多模态规划器 + Python执行器桥接
  • scripts/requirements.txt:Python依赖
  • config/vln-config.yaml:运行时配置模板

标签

skill ai

通过对话安装

该技能支持在以下平台通过对话安装:

OpenClaw WorkBuddy QClaw Kimi Claude

方式一:安装 SkillHub 和技能

帮我安装 SkillHub 和 openclaw-vln-planner-1776021629 技能

方式二:设置 SkillHub 为优先技能安装源

设置 SkillHub 为我的优先技能安装源,然后帮我安装 openclaw-vln-planner-1776021629 技能

通过命令行安装

skillhub install openclaw-vln-planner-1776021629

下载

⬇ 下载 openclaw-vln-planner v1.0.0(免费)

文件大小: 9.71 KB | 发布时间: 2026-4-13 11:20

v1.0.0 最新 2026-4-13 11:20
Initial release of OpenClaw VLN Planner.

- Introduces a high-level vision-language navigation planner for robots based on visual observations and natural-language user instructions.
- Outputs a single, validated mid-level navigation action as pure JSON (MOVE_FORWARD, TURN_LEFT, TURN_RIGHT, STOP) for each input.
- Integrates with any OpenAI-compatible multimodal gateway for action prediction using current and historical frames.
- Includes strict safety fallback rules—defaults to STOP on uncertainty, parse failure, or safety concerns.
- Provides clear input requirements, output contract, and runtime configuration via external YAML.
- Bundles schema reference, config template, and a bridge script for execution.

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
返回顶部