OpenClaw Smartness Eval

用于评估 OpenClaw 是否真的“更聪明”，而不是只看单次回答是否看起来不错。

适用场景

- 版本升级后回归：确认能力是否真的提升
每周 / 每月自评：输出结构化能力报告
发现退化：查看哪个维度下降最快
准备对外展示：生成统一口径的能力评估结果

命令

1) 标准评估

CODEBLOCK0

2) 快速评估

CODEBLOCK1

3) 深度评估

CODEBLOCK2

4) 只输出 Markdown

CODEBLOCK3

5) 健康检查

CODEBLOCK4

输出内容

评估结果将写入：

- INLINECODE0
INLINECODE1
INLINECODE2

输出结果包含：

- INLINECODE3
INLINECODE4
INLINECODE5
INLINECODE6
INLINECODE7
INLINECODE8
INLINECODE9
INLINECODE10

6) LLM Judge 主观评分

CODEBLOCK5

需设置 DEEPSEEK_API_KEY 或 OPENAI_API_KEY 环境变量。
该功能会发起外部 API 请求，默认不开启，仅在显式传入 --llm-judge 时启用。

输出新增字段 (v0.2)

- dimension_spread — 维度间离散度
INLINECODE15 — 各维度分数变化
INLINECODE16 — 退化超过 5 分的维度
INLINECODE17 — deep 模式下各测试的 pass@k 可靠性
INLINECODE18 — LLM 裁判主观评分和评语

数据来源

- INLINECODE19
INLINECODE20 (时间窗口过滤)
INLINECODE21
INLINECODE22
INLINECODE23
INLINECODE24
INLINECODE25
INLINECODE26 (真实日志抽样)
INLINECODE27 (反思报告)
INLINECODE28 (告警日志)
INLINECODE29
INLINECODE30 (推理知识库)
INLINECODE31 (回归指标)
任务集中的 34 项规则测试命令
随机探针测试 (反作弊)

模式说明

- quick — 小样本 + 关键日志，~10 个测试
INLINECODE33 — 默认周度评估，~25 个测试 + 2 个随机探针
INLINECODE34 — 全部测试 x2 重复运行 + pass@k + 30天窗口 + 趋势对比

安全声明 / Security Declaration

本技能被设计为只读评估工具，以下是完整的行为声明：

文件读取（只读）

本技能只读取以下工作区状态文件，不修改任何现有文件：

文件	用途	写入？
INLINECODE35	延迟 P50/P95 计算	❌ 只读
INLINECODE36

文件写入（仅限自身输出目录）

本技能仅写入 state/smartness-eval/ 目录下的评估结果：

- state/smartness-eval/runs/<timestamp>.json — 完整评估 JSON
INLINECODE48 — Markdown 报告
INLINECODE49 — 历史评分记录

命令执行

本技能通过 subprocess 运行 task-suite.json 中定义的测试命令：

- 所有命令都经过白名单校验（validate_command() 函数）
禁止：内联 Python/Shell 代码、绝对路径、管道操作、危险系统命令
只允许：以 python3 scripts/、cat state/、sqlite3 .reasoning/ 等安全前缀开头的命令
命令执行超时限制为 30 秒

网络访问

- 默认无网络访问
仅在用户显式传入 --llm-judge 参数时，会调用 DeepSeek/OpenAI API（需用户自行配置 API Key）
除此之外，本技能完全离线运行

无持久化副作用

- 不修改 OpenClaw 配置
不安装任何依赖
不修改系统文件
不发送遥测数据
仅使用 Python 标准库

文件结构

CODEBLOCK6

OpenClaw 智能评估

用于评估 OpenClaw 是否真的更聪明，而不是只看单次回答是否看起来不错。

适用场景

- 版本升级后回归：确认能力是否真的提升
每周 / 每月自评：输出结构化能力报告
发现退化：查看哪个维度下降最快
准备对外展示：生成统一口径的能力评估结果

命令

1) 标准评估

bash
python3 skills/openclaw-smartness-eval/scripts/eval.py --mode standard

2) 快速评估

bash
python3 skills/openclaw-smartness-eval/scripts/eval.py --mode quick

3) 深度评估

bash
python3 skills/openclaw-smartness-eval/scripts/eval.py --mode deep --compare-last

4) 只输出 Markdown

bash
python3 skills/openclaw-smartness-eval/scripts/eval.py --mode standard --format markdown

5) 健康检查

bash
python3 skills/openclaw-smartness-eval/scripts/check.py

输出内容

评估结果将写入：

- state/smartness-eval/runs/.json
state/smartness-eval/reports/.md
state/smartness-eval/history.jsonl

输出结果包含：

- overallscore
grade
dimensionscores
expandedscores
evidence
riskflags
upgraderecommendations
trendvs_last

6) LLM 裁判主观评分

bash
python3 skills/openclaw-smartness-eval/scripts/eval.py --mode standard --llm-judge

需设置 DEEPSEEKAPIKEY 或 OPENAIAPIKEY 环境变量。
该功能会发起外部 API 请求，默认不开启，仅在显式传入 --llm-judge 时启用。