model-tester

model-tester模型测试器

Test agents or models against predefined test cases to validate model routing, performance, and output quality. Use when: (1) verifying a specific agent or model works correctly, (2) debugging model fallback chains, (3) testing model selection behavior, (4) validating extraction/reasoning/classification across different models, or (5) verifying a model actually got used after routing. Supports --agent, --model, --case parameters with structured JSON output.

作者: admin | 来源: ClawHub

技能名称: model-tester
详细描述:
使用 scripts/model_tester.py 运行可重复的测试提示，并从 OpenClaw 日志中比较请求的模型使用情况与实际模型使用情况。

运行

从技能目录（或传递绝对路径）：

bash
python3 scripts/model_tester.py --agent menial --case extract-emails
python3 scripts/model_tester.py --model openai/gpt-4.1 --case math-reasoning
python3 scripts/model_tester.py --agent chat --model openai/gpt-4.1 --case all --out /tmp/model-test.json

输入参数

- --agent <名称>: 目标代理（chat、menial、coder 等）
--model <名称>: 要测试的请求模型别名/名称
--case : 来自 references/test-cases.json 的测试用例或 all
--timeout <秒>: 每个用例的超时时间（默认 120）
--out <文件>: 可选的 JSON 输出文件

至少需要 --agent 或 --model 中的一个。

运行器执行的操作

1. 从 references/test-cases.json 加载测试用例。
并行启动 openclaw logs --follow --json。
使用受限的测试提示运行 openclaw agent --json（要求代理为任务使用子代理）。
解析响应 + 尾部日志。
输出机器可读的 JSON 和简短的人类可读摘要。

输出格式

顶层 JSON：

- tool
timestamp
agent
requested_model
results[]

每个结果条目返回：

- testcase
agent
requestedmodel
actualmodel（从日志中解析，如果可用）
status（ok/error）
resultsummary
runtime_seconds
tokens（如果可发现）
errors[]

隐私与安全

测试器仅使用预定义的测试提示生成隔离的子代理任务——不会向模型传递任何用户数据。它会跟踪 OpenClaw 日志以提取：

- 实际选择的模型（路由验证）
令牌使用统计
运行时指标

日志提取使用正则表达式模式查找模型/令牌字段。不会捕获任何个人身份信息或任意日志内容——仅捕获与测试执行相关的结构化字段。

注意事项

- 模型提取和令牌提取是尽力而为的，因为日志字段可能因 OpenClaw/提供商版本而异。
如果 openclaw 配置无效或网关不可用，脚本将返回 status=error 并附带 stderr 详细信息。
编辑 references/test-cases.json 以添加自定义提示到您的基准测试集。
所有测试用例都是通用的；不包含任何工作区或用户数据。

model-tester模型测试器

Run

Inputs

What the runner does

Output format

Privacy & Safety

Notes

运行

输入参数

运行器执行的操作

输出格式

隐私与安全

注意事项

标签

通过对话安装

方式一：安装 SkillHub 和技能

方式二：设置 SkillHub 为优先技能安装源

通过命令行安装

下载

model-tester模型测试器

model-tester

Run

Inputs

What the runner does

Output format

Privacy & Safety

Notes

运行

输入参数

运行器执行的操作

输出格式

隐私与安全

注意事项

标签

通过对话安装

方式一：安装 SkillHub 和技能

方式二：设置 SkillHub 为优先技能安装源

通过命令行安装

下载

相关推荐

self-improvement

self-improvement

self-improvement

self-improvement