返回顶部
a

autoresearch自动优化技能

Autonomously optimize any OpenClaw skill by running it repeatedly, scoring outputs against binary evals, mutating the prompt, and keeping improvements. Based on Karpathy's autoresearch methodology. Use when: optimize this skill, improve this skill, run autoresearch on, make this skill better, self-improve skill, benchmark skill, eval my skill, run evals on.

作者: admin | 来源: ClawHub
源自
ClawHub
版本
V 1.0.0
安全检测
已通过
100
下载量
免费
免费
0
收藏
概述
安装方式
版本历史

autoresearch

autoresearch

通过反复运行、根据二元评估对输出进行评分、变异提示词并保留改进,自主优化任何OpenClaw技能。基于Karpathy的autoresearch方法论。

触发条件

使用场景:优化此技能、改进此技能、运行autoresearch、让此技能更好、自我改进技能、基准测试技能、评估我的技能、运行评估。

描述

使用Karpathy的autoresearch模式进行自主提示词/策略优化。变异→评估→保留改进。适用于任何具有可测量分数的内容:交易策略、内容脚本、缩略图、广告文案、邮件主题。

工作原理

┌─────────────┐ ┌─────────────┐ ┌─────────────┐ ┌─────────────┐
│ 1. 基准线 │────▶│ 2. 变异 │────▶│ 3. 评估 │────▶│ 4. 决策 │
│ 对当前版本 │ │ 更改一个 │ │ 运行评分 │ │ 更好? │
│ 进行评分 │ │ 项目 │ │ 函数 │ │ 保留:回滚 │
└─────────────┘ └─────────────┘ └─────────────┘ └──────┬───────┘

循环回到第2步

操作说明

第1步:确定可变文件

可变文件是您要优化的对象。可以是:

  • - SKILL.md提示词/指令
  • 交易策略配置(阈值、参数)
  • 内容模板(YouTube脚本格式、广告文案结构)
  • 任何更改后能产生可测量差异的文本文件

创建或确定此文件。示例:

my-skill/
├── SKILL.md ← 这是您的可变文件
├── eval/
│ ├── test_cases.json
│ └── score.py

第2步:创建评估函数

您的评估函数必须:

  1. 1. 将当前可变文件作为输入
  2. 针对测试用例运行
  3. 返回一个数值分数(越高越好)

评估可以是任何形式:

  • - LLM作为评判:将输出发送给LLM,要求其评分1-100
  • 回测:针对历史数据运行策略,衡量夏普比率/回报率
  • A/B指标:点击率、参与度、转化率
  • 二元通过/失败:统计N个测试用例中通过的数量

模板评估函数(根据您的领域定制):
python

eval/score.py


import json
import sys

def evaluate(mutablefilepath: str, testcasespath: str) -> float:

对当前版本的可变文件进行评分。
返回一个浮点数——越高越好。

with open(mutablefilepath) as f:
current_version = f.read()

with open(testcasespath) as f:
test_cases = json.load(f)

scores = []
for case in test_cases:
# 在此处编写您的评分逻辑
# 示例:运行提示词,将输出与预期结果比较
score = runandscore(current_version, case)
scores.append(score)

return sum(scores) / len(scores)

if name == main:
score = evaluate(sys.argv[1], sys.argv[2])
print(f分数: {score})

第3步:运行Autoresearch循环

循环遵循以下精确模式:

  1. 1. Git初始化(如果尚未完成)——每个实验都是一个提交
  2. 对当前版本运行评估→获取基准分数
  3. 对于每个实验(1..N):
a. 读取当前可变文件 b. 生成一个变异(更改一个项目——阈值、短语、规则) c. 写入变异后的版本 d. 运行评估→获取新分数 e. 如果新分数 > 基准分数: - Git提交,消息为:exp-{N}: {描述} | 分数: {基准} → {新分数} - 更新基准分数 = 新分数 - 记录:✅ 已保留——改进 f. 如果新分数 <= 基准分数: - Git检出可变文件(回滚) - 记录:❌ 已回滚——无改进
  1. 4. 打印最终摘要:运行的实验数、发现的改进、最终分数

运行循环的代理指令

当用户说对X运行autoresearch时,请遵循以下步骤:

  1. 1. 定位可变文件——询问用户或从上下文中推断
  2. 定位或创建评估函数——用户必须有一种评分方式
  3. 在项目目录中初始化Git跟踪
  4. 运行基准评估——记录起始分数
  5. 开始实验循环:
- 读取可变文件 - 思考哪一项更改可能提高分数 - 进行更改(要具体——每次实验只更改一项) - 运行评估 - 根据分数保留或回滚 - 记录结果
  1. 6. 继续运行N个实验(默认:20,或直到用户停止)
  2. 报告结果:
- 起始分数→最终分数 - 运行的实验数量 - 保留的改进数量 - 哪些更改有效的摘要

变异策略

好的变异每次只更改一项:

  • - 数值参数:调整阈值、权重、窗口大小
  • 提示词措辞:改写指令、添加/删除约束
  • 结构:重新排序章节、添加示例、删除冗余
  • 规则:添加新规则、收紧现有规则、放宽约束

不好的变异一次更改所有内容——您无法了解哪些更改有效。

第4步:Git跟踪

每个实验都必须在Git中跟踪:
bash

开始前


git init
git add -A
git commit -m 基准: 分数 {X}

每次成功变异后

git add -A git commit -m exp-{N}: {更改内容} | {旧分数} → {新分数}

每次失败变异后

git checkout -- {mutable_file}

这样您将获得:

  • - 每个实验的完整历史记录
  • 能够比较任意两个版本的差异
  • 出现问题时可轻松回滚
  • 哪些变异有效/无效的记录

已验证的结果

案例研究1:黄金交易策略

  • - 任务:优化XAUUSD交易参数
  • 可变文件:策略配置(EMA周期、动量阈值、头寸规模)
  • 评估函数:对历史数据进行回测→夏普比率
  • 基准:夏普比率5.80
  • 实验:25分钟内完成86次
  • 最终:夏普比率12.23(+111%)
  • 关键发现:动量阈值0.003→0,EMA 8/24→5/11,头寸规模优化
  • 参见:references/gold-results.md

案例研究2:YouTube短视频脚本

  • - 任务:优化脚本编写提示词以获得更高质量分数
  • 可变文件:SKILL.md提示词指令
  • 评估函数:LLM评判评分1-100
  • 基准:94.3/100
  • 实验:11次
  • 最终:96.7/100(+2.5%)
  • 关键发现:原子句、严格40-50词范围、更强的负面示例
  • 参见:references/youtube-results.md

使用示例

用户:对我的邮件主题行技能运行autoresearch

代理工作流程

  1. 1. 读取技能的SKILL.md(可变文件)
  2. 创建评估:生成20封测试邮件→使用LLM评判对主题行评分(1-100,基于打开率预测)
  3. 基准:72.4/100
  4. 实验1:添加在主题行中使用数字→74.1 ✅ 已保留
  5. 实验2:添加最多6个词→71.8 ❌ 已回滚
  6. 实验3:添加以动词开头→75.3 ✅ 已保留
  7. ...继续运行20个实验
  8. 最终:79.2/100(+9.4%)

用户:优化我的交易策略配置

代理工作流程

  1. 1. 读取strategy.json(可变文件)
  2. 评估:运行回测脚本→夏普比率
  3. 基准:夏普比率2.1
  4. 实验1:将止损从2%降低到1.5%→夏普比率2.3 ✅
  5. 实验2:将EMA快速周期从12增加到15→夏普比率1.9 ❌
  6. ...继续
  7. 最终:夏普比率3.8(+81%)

标签

skill ai

通过对话安装

该技能支持在以下平台通过对话安装:

OpenClaw WorkBuddy QClaw Kimi Claude

方式一:安装 SkillHub 和技能

帮我安装 SkillHub 和 karpathy-autoresearch-1776104788 技能

方式二:设置 SkillHub 为优先技能安装源

设置 SkillHub 为我的优先技能安装源,然后帮我安装 karpathy-autoresearch-1776104788 技能

通过命令行安装

skillhub install karpathy-autoresearch-1776104788

下载

⬇ 下载 autoresearch v1.0.0(免费)

文件大小: 13.57 KB | 发布时间: 2026-4-14 14:01

v1.0.0 最新 2026-4-14 14:01
Initial release: autonomous prompt/strategy optimization. Gold trading +111% Sharpe, YouTube Shorts +2.5% quality.

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
返回顶部