返回顶部
o

openclaw-smartness-eval智能度综合评伌

OpenClaw 智能度综合评伌技能。围绕 14 个维度(含规划能力、幻觉控制)输出综合评分、证据、风险与趋势。对齐 CLEAR/T-Eval/Anthropic 行业标准。

作者: admin | 来源: ClawHub
源自
ClawHub
版本
V 0.3.2
安全检测
已通过
242
下载量
免费
免费
1
收藏
概述
安装方式
版本历史

openclaw-smartness-eval

OpenClaw 智能评估

用于评估 OpenClaw 是否真的更聪明,而不是只看单次回答是否看起来不错。

适用场景

  • - 版本升级后回归:确认能力是否真的提升
  • 每周 / 每月自评:输出结构化能力报告
  • 发现退化:查看哪个维度下降最快
  • 准备对外展示:生成统一口径的能力评估结果

命令

1) 标准评估

bash
python3 skills/openclaw-smartness-eval/scripts/eval.py --mode standard

2) 快速评估

bash
python3 skills/openclaw-smartness-eval/scripts/eval.py --mode quick

3) 深度评估

bash
python3 skills/openclaw-smartness-eval/scripts/eval.py --mode deep --compare-last

4) 只输出 Markdown

bash
python3 skills/openclaw-smartness-eval/scripts/eval.py --mode standard --format markdown

5) 健康检查

bash
python3 skills/openclaw-smartness-eval/scripts/check.py

输出内容

评估结果将写入:

  • - state/smartness-eval/runs/.json
  • state/smartness-eval/reports/.md
  • state/smartness-eval/history.jsonl

输出结果包含:

  • - overallscore
  • grade
  • dimensionscores
  • expandedscores
  • evidence
  • riskflags
  • upgraderecommendations
  • trendvs_last

6) LLM 裁判主观评分

bash
python3 skills/openclaw-smartness-eval/scripts/eval.py --mode standard --llm-judge

需设置 DEEPSEEKAPIKEY 或 OPENAIAPIKEY 环境变量。
该功能会发起外部 API 请求,默认不开启,仅在显式传入 --llm-judge 时启用。

输出新增字段 (v0.2)

  • - dimensionspread — 维度间离散度
  • trendvslast.dimensiondeltas — 各维度分数变化
  • trendvslast.degradationalert — 退化超过 5 分的维度
  • passatk — deep 模式下各测试的 pass@k 可靠性
  • llmjudge — LLM 裁判主观评分和评语

数据来源

  • - state/response-latency-metrics.json
  • state/error-tracker.json (时间窗口过滤)
  • state/pattern-library.json
  • state/cron-governor-report.json
  • state/benchmark-results/history.jsonl
  • state/v5-orchestrator-log.json
  • state/v5-finalize-log.json
  • state/message-analyzer-log.json (真实日志抽样)
  • state/reflection-reports/ (反思报告)
  • state/alerts.jsonl (告警日志)
  • state/rule-candidates.json
  • .reasoning/reasoning-store.sqlite (推理知识库)
  • scripts/regression-metrics-report.py (回归指标)
  • 任务集中的 34 项规则测试命令
  • 随机探针测试 (反作弊)

模式说明

  • - quick — 小样本 + 关键日志,~10 个测试
  • standard — 默认周度评估,~25 个测试 + 2 个随机探针
  • deep — 全部测试 x2 重复运行 + pass@k + 30天窗口 + 趋势对比

安全声明 / Security Declaration

本技能被设计为只读评估工具,以下是完整的行为声明:

文件读取(只读)

本技能只读取以下工作区状态文件,不修改任何现有文件

文件用途写入?
state/response-latency-metrics.json延迟 P50/P95 计算❌ 只读
state/error-tracker.json
错误修复率统计 | ❌ 只读 |
| state/pattern-library.json | 模式库健康度 | ❌ 只读 |
| state/cron-governor-report.json | Cron 任务状态 | ❌ 只读 |
| state/benchmark-results/history.jsonl | 基准测试通过率 | ❌ 只读 |
| state/v5-orchestrator-log.json | 编排器使用量 | ❌ 只读 |
| state/v5-finalize-log.json | Finalize 审批率 | ❌ 只读 |
| state/message-analyzer-log.json | 真实交互采样 | ❌ 只读 |
| state/reflection-reports/ | 自省报告数量 | ❌ 只读 |
| state/alerts.jsonl | 告警频率统计 | ❌ 只读 |
| .reasoning/reasoning-store.sqlite | 推理深度查询 | ❌ 只读 |

文件写入(仅限自身输出目录)

本技能仅写入 state/smartness-eval/ 目录下的评估结果:

  • - state/smartness-eval/runs/.json — 完整评估 JSON
  • state/smartness-eval/reports/.md — Markdown 报告
  • state/smartness-eval/history.jsonl — 历史评分记录

命令执行

本技能通过 subprocess 运行 task-suite.json 中定义的测试命令:

  • - 所有命令都经过白名单校验(validate_command() 函数)
  • 禁止:内联 Python/Shell 代码、绝对路径、管道操作、危险系统命令
  • 只允许:以 python3 scripts/、cat state/、sqlite3 .reasoning/ 等安全前缀开头的命令
  • 命令执行超时限制为 30 秒

网络访问

  • - 默认无网络访问
  • 仅在用户显式传入 --llm-judge 参数时,会调用 DeepSeek/OpenAI API(需用户自行配置 API Key)
  • 除此之外,本技能完全离线运行

无持久化副作用

  • - 不修改 OpenClaw 配置
  • 不安装任何依赖
  • 不修改系统文件
  • 不发送遥测数据
  • 仅使用 Python 标准库

文件结构

text
openclaw-smartness-eval/
├── SKILL.md
├── _meta.json
├── config/
│ ├── config.json
│ ├── rubrics.json
│ └── task-suite.json
└── scripts/
├── eval.py
└── check.py

标签

skill ai

通过对话安装

该技能支持在以下平台通过对话安装:

OpenClaw WorkBuddy QClaw Kimi Claude

方式一:安装 SkillHub 和技能

帮我安装 SkillHub 和 openclaw-smartness-eval-1776062172 技能

方式二:设置 SkillHub 为优先技能安装源

设置 SkillHub 为我的优先技能安装源,然后帮我安装 openclaw-smartness-eval-1776062172 技能

通过命令行安装

skillhub install openclaw-smartness-eval-1776062172

下载

⬇ 下载 openclaw-smartness-eval v0.3.2(免费)

文件大小: 67.89 KB | 发布时间: 2026-4-15 13:46

v0.3.2 最新 2026-4-15 13:46
v0.3.2: 添加完整安全声明(Security Declaration),明确声明只读文件列表、写入范围、命令白名单机制、网络访问策略、无副作用保证,降低ClawHub可疑标记

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
返回顶部