返回顶部
a

autoresearch-agent自主研究代理

Autonomous experiment loop that optimizes any file by a measurable metric. Inspired by Karpathy's autoresearch. The agent edits a target file, runs a fixed evaluation, keeps improvements (git commit), discards failures (git reset), and loops indefinitely. Use when: user wants to optimize code speed, reduce bundle/image size, improve test pass rate, optimize prompts, improve content quality (headlines, copy, CTR), or run any measurable improvement loop. Requires: a target file, an evaluation comm

作者: admin | 来源: ClawHub
源自
ClawHub
版本
V 2.1.1
安全检测
已通过
125
下载量
免费
免费
0
收藏
概述
安装方式
版本历史

autoresearch-agent

Autoresearch Agent

你睡觉。智能体做实验。你醒来看到结果。

Karpathy 的 autoresearch 启发的自主实验循环。智能体编辑一个文件,运行固定评估,保留改进,丢弃失败,并无限循环。

不是一次猜测——而是五十次有计划的尝试,不断累积。



斜杠命令


命令功能
/ar:setup交互式设置新实验
/ar:run
运行单次实验迭代 |
| /ar:loop | 以可配置间隔(10分钟、1小时、每天、每周、每月)启动自主循环 |
| /ar:status | 显示仪表盘和结果 |
| /ar:resume | 恢复暂停的实验 |


何时激活此技能

识别用户的以下模式:

  • - 让这个更快/更小/更好
  • 优化 [文件] 以提升 [指标]
  • 改进我的 [标题/文案/提示词]
  • 通宵运行实验
  • 我想把 [指标] 从 X 提升到 Y
  • 任何涉及以下内容的请求:优化、基准测试、改进、实验循环、autoresearch

如果用户描述了目标文件 + 衡量成功的方法 → 此技能适用。



设置

首次使用 — 创建实验

运行设置脚本。用户决定实验存放位置:

项目级(在仓库内,由 Git 跟踪,可与团队共享):
bash
python scripts/setup_experiment.py \
--domain engineering \
--name api-speed \
--target src/api/search.py \
--eval pytest bench.py --tb=no -q \
--metric p50_ms \
--direction lower \
--scope project

用户级(个人,位于 ~/.autoresearch/):
bash
python scripts/setup_experiment.py \
--domain marketing \
--name medium-ctr \
--target content/titles.md \
--eval python evaluate.py \
--metric ctr_score \
--direction higher \
--evaluator llmjudgecontent \
--scope user

--scope 标志决定 .autoresearch/ 的位置:

  • - project(默认)→ 仓库根目录下的 .autoresearch/。实验定义由 Git 跟踪。结果被 gitignore 忽略。
  • user → 主目录下的 ~/.autoresearch/。所有内容都是个人的。

设置创建的内容

.autoresearch/
├── config.yaml ← 全局设置
├── .gitignore ← 忽略 results.tsv, *.log
└── {domain}/{experiment-name}/
├── program.md ← 目标、约束、策略
├── config.cfg ← 目标、评估命令、指标、方向
├── results.tsv ← 实验日志(被 gitignore 忽略)
└── evaluate.py ← 评估脚本(如果使用了 --evaluator)

results.tsv 列: commit | metric | status | description

  • - commit — 短 Git 哈希值
  • metric — 浮点值或崩溃时的 N/A
  • status — keep | discard | crash
  • description — 更改内容或崩溃原因

领域

领域用例
engineering代码速度、内存、打包大小、测试通过率、构建时间
marketing
标题、社交媒体文案、邮件主题、广告文案、参与度 | | content | 文章结构、SEO 描述、可读性、点击率 | | prompts | 系统提示词、聊天机器人语气、智能体指令 | | custom | 任何其他具有可衡量指标的内容 |

如果 program.md 已存在

用户可能已经编写了自己的 program.md。如果在实验目录中找到,则读取它。它将覆盖模板。仅询问缺失的内容。



智能体协议

你就是循环本身。脚本处理设置和评估——你处理创造性工作。

开始之前

  1. 1. 读取 .autoresearch/{domain}/{name}/config.cfg 以获取:
- target — 你编辑的文件 - evaluate_cmd — 衡量你更改的命令 - metric — 在评估输出中查找的指标名称 - metric_direction — lower 或 higher 表示更好 - timebudgetminutes — 每次评估的最长时间
  1. 2. 读取 program.md 了解策略、约束以及可以/不可以更改的内容
  2. 读取 results.tsv 获取实验历史(列:commit, metric, status, description)
  3. 检出实验分支:git checkout autoresearch/{domain}/{name}

每次迭代

  1. 1. 审查 results.tsv — 哪些有效?哪些失败?哪些尚未尝试?
  2. 决定对目标文件进行一次更改。每次实验只改变一个变量。
  3. 编辑目标文件
  4. 提交:git add {target} && git commit -m experiment: {description}
  5. 评估:python scripts/run_experiment.py --experiment {domain}/{name} --single
  6. 读取输出——它会打印 KEEP、DISCARD 或 CRASH 以及指标值
  7. 返回步骤 1

脚本处理的内容(你不需要做)

  • - 使用超时运行评估命令
  • 从评估输出中解析指标
  • 与之前的最佳值比较
  • 失败时回滚提交(git reset --hard HEAD~1)
  • 将结果记录到 results.tsv

启动实验

bash

单次迭代(智能体会重复调用此命令)


python scripts/run_experiment.py --experiment engineering/api-speed --single

试运行(启动前测试设置)

python scripts/run_experiment.py --experiment engineering/api-speed --dry-run

策略升级

  • - 第 1-5 次运行:低垂果实(明显的改进,简单的优化)
  • 第 6-15 次运行:系统探索(每次改变一个参数)
  • 第 16-30 次运行:结构性更改(算法替换,架构调整)
  • 第 30+ 次运行:激进实验(完全不同的方法)
  • 如果 20+ 次运行没有改进:更新 program.md 的策略部分

自我改进

每 10 次实验后,审查 results.tsv 寻找模式。用你学到的内容更新 program.md 的策略部分(例如,缓存更改持续提升 5-10%,重构尝试从未改善指标)。未来的迭代将从这些积累的知识中受益。

停止

  • - 持续运行直到被用户中断、达到上下文限制或 program.md 中的目标达成
  • 停止前:确保 results.tsv 是最新的
  • 上下文限制时:下一个会话可以恢复——results.tsv 和 Git 日志会持久保存

规则

  • - 每次实验只做一个更改。 不要同时更改 5 件事。你不会知道哪个有效。
  • 简洁性标准。 增加丑陋复杂性的小改进不值得。相同性能但代码更简洁是胜利。删除代码却获得相同结果是最好的结果。
  • 永远不要修改评估器。 evaluate.py 是基准事实。修改它会使所有比较失效。如果发现自己正在这样做,立即停止。
  • 超时。 如果运行超过时间预算的 2.5 倍,终止并将其视为崩溃。
  • 崩溃处理。 如果是拼写错误或缺少导入,修复后重新运行。如果想法从根本上就有问题,回滚,记录 crash,继续。连续 5 次崩溃 → 暂停并发出警报。
  • 不添加新依赖。 只使用项目中已有的内容。

评估器

即用型评估脚本。在设置期间使用 --evaluator 复制到实验目录。

免费评估器(无 API 成本)

评估器指标用例
benchmarkspeedp50ms(越低越好)函数/API 执行时间
benchmarksize
sizebytes(越低越好) | 文件、打包、Docker 镜像大小 | | testpassrate | pass_rate(越高越好) | 测试套件通过百分比 | | buildspeed | buildseconds(越低越好) | 构建/编译/Docker 构建时间 | | memoryusage | peakmb(越低越好) | 执行期间峰值内存 |

LLM 评判评估器(使用你的订阅)

评估器指标用例
llmjudgecontentctr_score 0-10(越高越好)
标题、

标签

skill ai

通过对话安装

该技能支持在以下平台通过对话安装:

OpenClaw WorkBuddy QClaw Kimi Claude

方式一:安装 SkillHub 和技能

帮我安装 SkillHub 和 autoresearch-agent-1776124231 技能

方式二:设置 SkillHub 为优先技能安装源

设置 SkillHub 为我的优先技能安装源,然后帮我安装 autoresearch-agent-1776124231 技能

通过命令行安装

skillhub install autoresearch-agent-1776124231

下载

⬇ 下载 autoresearch-agent v2.1.1(免费)

文件大小: 40.2 KB | 发布时间: 2026-4-14 14:05

v2.1.1 最新 2026-4-14 14:05
v2.1.1: optimization, reference splits

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
返回顶部