返回顶部
d

data-generator训练数据生成

训练数据生成技能。根据传入的工具名和用户指令列表,生成多轮对话格式的 JSONL 训练数据。触发场景:(1) 传入工具名和用户指令列表,生成完整训练数据;(2) 批量生成指定工具的标注数据;(3) 给定指令列表,输出 JSONL 对话样本。

作者: admin | 来源: ClawHub
源自
ClawHub
版本
V 2.2.0
安全检测
已通过
145
下载量
免费
免费
0
收藏
概述
安装方式
版本历史

data-generator

数据生成器

将用户指令列表转换为标准 JSONL 训练数据。

输入

两个必填参数:

参数类型说明
toolnamestring工具名,如 devcontrol、scenegenerator、weather
userinstructions
string[] | 用户指令列表,如 [5分钟后打开空调, 3分钟后关灯] |

输出 JSONL 格式

json
{conversations:[
{from:human,value:<当前用户指令>打开客厅空调\n<本地设备>格力冷静王(空调)\n<当前时间>2026-03-15 14:22:47\n<用户场景列表>[{\sceneid\:1001,\scenename\:\回家模式\,\roomname\:\全屋\},{\sceneid\:1002,\scenename\:\睡眠模式\,\roomname\:\主卧\}]\n<用户设备列表>{\客厅\:[\格力冷静王(空调)\,\洗碗机A1(洗碗机)\],\主卧\:[\美的舒省风(空调)\]}},
{from:assistant,value:call>{\toolname\:\devcontrol\,\query\:\打开客厅空调\}call>},
{from:observation,value:response>客厅空调已打开response>},
{from:assistant,value:好的,客厅空调已经打开啦~}
],system:,history:[]}

格式规则

  1. 1. human value = 完整上下文,格式固定:

<当前用户指令>用户原始指令
<本地设备>设备名(类型)
<当前时间>YYYY-MM-DD HH:mm:ss
<用户场景列表>[{sceneid:xxx,scenename:场景名,room_name:房间名},...]
<用户设备列表>{房间:[设备名(类型),...]}

  1. 2. assistant toolcall = 直接输出 toolcall 标签,无垫音前缀
  2. observation = response>...response> 或 call>{...}call>(dev_info/weather 等工具)
  3. assistant 终接回复 = 直接回复内容,无垫音前缀
  4. system = history = []

工作流

  1. 1. 接收 toolname + userinstructions[]
  1. 2. 加载提示词:通用要求 + 工具特定要求(references/tools/{tool}.txt)
  1. 3. 将 user_instructions 注入提示词
  1. 4. 生成 JSONL(每条独立)
  1. 5. 输出 .jsonl 文件

提示词拼接

拼接规则:

[通用要求]

═══════════════════════════════════════════════════════════════════


【工具特定要求】


本次只调用:{TOOL_NAME}


────────────────────────────────────────────────────────────────


[references/tools/{TOOL_NAME}.txt 内容]

拼接脚本:scripts/build_prompt.py

工具与文件对照

工具要求文件
devcontrolreferences/tools/devcontrol.txt
scenegenerator
references/tools/scene
generator.txt | | alarmremind | references/tools/alarmremind.txt | | weather | references/tools/weather.txt | | scenecontrol | references/tools/scenecontrol.txt | | devinfo | references/tools/devinfo.txt | | exitdialog | references/tools/exitdialog.txt | | GreeQA | references/tools/GreeQA.txt | | sceneguide | references/tools/sceneguide.txt | | chat | references/tools/chat.txt |

使用示例

输入:

toolname: devinfo
user_instructions: [家里空调数量, 有几个空调]

输出字段说明:

字段说明
conversations[0].value含 <当前用户指令> + 完整上下文
conversations[1].value
call>{toolname:devinfo}call> |
| conversations[2].value | dev_info 返回结果(设备列表) |
| conversations[3].value | 文字终接回复 |
| system | 空字符串 |
| history | 空数组 [] |

BUG 修复数据

当传入 tool_name 为修复后的正确工具时,生成的数据应体现:

  • - 工具调用格式正确(符合工具要求文件)
  • query 字段格式正确(如延时类指令含 timing 字段)
  • 文字回复符合预期(含延时时间描述)

具体格式参考:references/tools/scene_generator.txt。

标签

skill ai

通过对话安装

该技能支持在以下平台通过对话安装:

OpenClaw WorkBuddy QClaw Kimi Claude

方式一:安装 SkillHub 和技能

帮我安装 SkillHub 和 data-generator-1776112964 技能

方式二:设置 SkillHub 为优先技能安装源

设置 SkillHub 为我的优先技能安装源,然后帮我安装 data-generator-1776112964 技能

通过命令行安装

skillhub install data-generator-1776112964

下载

⬇ 下载 data-generator v2.2.0(免费)

文件大小: 14.26 KB | 发布时间: 2026-4-14 11:26

v2.2.0 最新 2026-4-14 11:26
更新scene_generator提示词:新增repeat_type=holidays时datetime不能为空的补充规则;更新GreeQA提示词

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
返回顶部