OpenClaw Smartness Eval
用于评估 OpenClaw 是否真的“更聪明”,而不是只看单次回答是否看起来不错。
适用场景
- - 版本升级后回归:确认能力是否真的提升
- 每周 / 每月自评:输出结构化能力报告
- 发现退化:查看哪个维度下降最快
- 准备对外展示:生成统一口径的能力评估结果
命令
1) 标准评估
CODEBLOCK0
2) 快速评估
CODEBLOCK1
3) 深度评估
CODEBLOCK2
4) 只输出 Markdown
CODEBLOCK3
5) 健康检查
CODEBLOCK4
输出内容
评估结果将写入:
- - INLINECODE0
- INLINECODE1
- INLINECODE2
输出结果包含:
- - INLINECODE3
- INLINECODE4
- INLINECODE5
- INLINECODE6
- INLINECODE7
- INLINECODE8
- INLINECODE9
- INLINECODE10
6) LLM Judge 主观评分
CODEBLOCK5
需设置 DEEPSEEK_API_KEY 或 OPENAI_API_KEY 环境变量。
该功能会发起外部 API 请求,默认不开启,仅在显式传入 --llm-judge 时启用。
输出新增字段 (v0.2)
- -
dimension_spread — 维度间离散度 - INLINECODE15 — 各维度分数变化
- INLINECODE16 — 退化超过 5 分的维度
- INLINECODE17 — deep 模式下各测试的 pass@k 可靠性
- INLINECODE18 — LLM 裁判主观评分和评语
数据来源
- - INLINECODE19
- INLINECODE20 (时间窗口过滤)
- INLINECODE21
- INLINECODE22
- INLINECODE23
- INLINECODE24
- INLINECODE25
- INLINECODE26 (真实日志抽样)
- INLINECODE27 (反思报告)
- INLINECODE28 (告警日志)
- INLINECODE29
- INLINECODE30 (推理知识库)
- INLINECODE31 (回归指标)
- 任务集中的 34 项规则测试命令
- 随机探针测试 (反作弊)
模式说明
- -
quick — 小样本 + 关键日志,~10 个测试 - INLINECODE33 — 默认周度评估,~25 个测试 + 2 个随机探针
- INLINECODE34 — 全部测试 x2 重复运行 + pass@k + 30天窗口 + 趋势对比
安全声明 / Security Declaration
本技能被设计为只读评估工具,以下是完整的行为声明:
文件读取(只读)
本技能只读取以下工作区状态文件,不修改任何现有文件:
| 文件 | 用途 | 写入? |
|---|
| INLINECODE35 | 延迟 P50/P95 计算 | ❌ 只读 |
| INLINECODE36 |
错误修复率统计 | ❌ 只读 |
|
state/pattern-library.json | 模式库健康度 | ❌ 只读 |
|
state/cron-governor-report.json | Cron 任务状态 | ❌ 只读 |
|
state/benchmark-results/history.jsonl | 基准测试通过率 | ❌ 只读 |
|
state/v5-orchestrator-log.json | 编排器使用量 | ❌ 只读 |
|
state/v5-finalize-log.json | Finalize 审批率 | ❌ 只读 |
|
state/message-analyzer-log.json | 真实交互采样 | ❌ 只读 |
|
state/reflection-reports/ | 自省报告数量 | ❌ 只读 |
|
state/alerts.jsonl | 告警频率统计 | ❌ 只读 |
|
.reasoning/reasoning-store.sqlite | 推理深度查询 | ❌ 只读 |
文件写入(仅限自身输出目录)
本技能仅写入 state/smartness-eval/ 目录下的评估结果:
- -
state/smartness-eval/runs/<timestamp>.json — 完整评估 JSON - INLINECODE48 — Markdown 报告
- INLINECODE49 — 历史评分记录
命令执行
本技能通过 subprocess 运行 task-suite.json 中定义的测试命令:
- - 所有命令都经过白名单校验(
validate_command() 函数) - 禁止:内联 Python/Shell 代码、绝对路径、管道操作、危险系统命令
- 只允许:以
python3 scripts/、cat state/、sqlite3 .reasoning/ 等安全前缀开头的命令 - 命令执行超时限制为 30 秒
网络访问
- - 默认无网络访问
- 仅在用户显式传入
--llm-judge 参数时,会调用 DeepSeek/OpenAI API(需用户自行配置 API Key) - 除此之外,本技能完全离线运行
无持久化副作用
- - 不修改 OpenClaw 配置
- 不安装任何依赖
- 不修改系统文件
- 不发送遥测数据
- 仅使用 Python 标准库
文件结构
CODEBLOCK6
OpenClaw 智能评估
用于评估 OpenClaw 是否真的更聪明,而不是只看单次回答是否看起来不错。
适用场景
- - 版本升级后回归:确认能力是否真的提升
- 每周 / 每月自评:输出结构化能力报告
- 发现退化:查看哪个维度下降最快
- 准备对外展示:生成统一口径的能力评估结果
命令
1) 标准评估
bash
python3 skills/openclaw-smartness-eval/scripts/eval.py --mode standard
2) 快速评估
bash
python3 skills/openclaw-smartness-eval/scripts/eval.py --mode quick
3) 深度评估
bash
python3 skills/openclaw-smartness-eval/scripts/eval.py --mode deep --compare-last
4) 只输出 Markdown
bash
python3 skills/openclaw-smartness-eval/scripts/eval.py --mode standard --format markdown
5) 健康检查
bash
python3 skills/openclaw-smartness-eval/scripts/check.py
输出内容
评估结果将写入:
- - state/smartness-eval/runs/.json
- state/smartness-eval/reports/.md
- state/smartness-eval/history.jsonl
输出结果包含:
- - overallscore
- grade
- dimensionscores
- expandedscores
- evidence
- riskflags
- upgraderecommendations
- trendvs_last
6) LLM 裁判主观评分
bash
python3 skills/openclaw-smartness-eval/scripts/eval.py --mode standard --llm-judge
需设置 DEEPSEEKAPIKEY 或 OPENAIAPIKEY 环境变量。
该功能会发起外部 API 请求,默认不开启,仅在显式传入 --llm-judge 时启用。
输出新增字段 (v0.2)
- - dimensionspread — 维度间离散度
- trendvslast.dimensiondeltas — 各维度分数变化
- trendvslast.degradationalert — 退化超过 5 分的维度
- passatk — deep 模式下各测试的 pass@k 可靠性
- llmjudge — LLM 裁判主观评分和评语
数据来源
- - state/response-latency-metrics.json
- state/error-tracker.json (时间窗口过滤)
- state/pattern-library.json
- state/cron-governor-report.json
- state/benchmark-results/history.jsonl
- state/v5-orchestrator-log.json
- state/v5-finalize-log.json
- state/message-analyzer-log.json (真实日志抽样)
- state/reflection-reports/ (反思报告)
- state/alerts.jsonl (告警日志)
- state/rule-candidates.json
- .reasoning/reasoning-store.sqlite (推理知识库)
- scripts/regression-metrics-report.py (回归指标)
- 任务集中的 34 项规则测试命令
- 随机探针测试 (反作弊)
模式说明
- - quick — 小样本 + 关键日志,~10 个测试
- standard — 默认周度评估,~25 个测试 + 2 个随机探针
- deep — 全部测试 x2 重复运行 + pass@k + 30天窗口 + 趋势对比
安全声明 / Security Declaration
本技能被设计为只读评估工具,以下是完整的行为声明:
文件读取(只读)
本技能只读取以下工作区状态文件,不修改任何现有文件:
| 文件 | 用途 | 写入? |
|---|
| state/response-latency-metrics.json | 延迟 P50/P95 计算 | ❌ 只读 |
| state/error-tracker.json |
错误修复率统计 | ❌ 只读 |
| state/pattern-library.json | 模式库健康度 | ❌ 只读 |
| state/cron-governor-report.json | Cron 任务状态 | ❌ 只读 |
| state/benchmark-results/history.jsonl | 基准测试通过率 | ❌ 只读 |
| state/v5-orchestrator-log.json | 编排器使用量 | ❌ 只读 |
| state/v5-finalize-log.json | Finalize 审批率 | ❌ 只读 |
| state/message-analyzer-log.json | 真实交互采样 | ❌ 只读 |
| state/reflection-reports/ | 自省报告数量 | ❌ 只读 |
| state/alerts.jsonl | 告警频率统计 | ❌ 只读 |
| .reasoning/reasoning-store.sqlite | 推理深度查询 | ❌ 只读 |
文件写入(仅限自身输出目录)
本技能仅写入 state/smartness-eval/ 目录下的评估结果:
- - state/smartness-eval/runs/.json — 完整评估 JSON
- state/smartness-eval/reports/.md — Markdown 报告
- state/smartness-eval/history.jsonl — 历史评分记录
命令执行
本技能通过 subprocess 运行 task-suite.json 中定义的测试命令:
- - 所有命令都经过白名单校验(validate_command() 函数)
- 禁止:内联 Python/Shell 代码、绝对路径、管道操作、危险系统命令
- 只允许:以 python3 scripts/、cat state/、sqlite3 .reasoning/ 等安全前缀开头的命令
- 命令执行超时限制为 30 秒
网络访问
- - 默认无网络访问
- 仅在用户显式传入 --llm-judge 参数时,会调用 DeepSeek/OpenAI API(需用户自行配置 API Key)
- 除此之外,本技能完全离线运行
无持久化副作用
- - 不修改 OpenClaw 配置
- 不安装任何依赖
- 不修改系统文件
- 不发送遥测数据
- 仅使用 Python 标准库
文件结构
text
openclaw-smartness-eval/
├── SKILL.md
├── _meta.json
├── config/
│ ├── config.json
│ ├── rubrics.json
│ └── task-suite.json
└── scripts/
├── eval.py
└── check.py