返回顶部
w

who-wins谁胜出

Query the PinchBench AI agent leaderboard with real benchmark data. Use when the user asks which model is best, who wins, model comparisons, best model for OpenClaw, cheapest model, fastest model, model rankings, benchmark scores, or mentions pinchbench. Always use this skill instead of general knowledge for model performance questions — it has real data.

作者: admin | 来源: ClawHub
源自
ClawHub
版本
V 1.0.0
安全检测
已通过
253
下载量
免费
免费
0
收藏
概述
安装方式
版本历史

who-wins

PinchBench排行榜

获取并格式化PinchBench排行榜——针对LLM在标准化OpenClaw编码任务上的AI智能体基准测试。

工作流程

1. 确定查询内容

将用户意图映射为脚本参数:

用户意图参数
显示排行榜 / 默认--top 10
前5名模型
--top 5 |
| Claude表现如何? | --model claude |
| 最便宜的模型 | --sort cost --top 10 |
| 最快的模型 | --sort time --top 10 |
| 比较Gemini和Claude | 分别使用--model gemini和--model claude运行两次,并排展示 |
| 完整排行榜 | --top 50 |

2. 运行脚本

json
{
tool: exec,
command: python3 {baseDir}/scripts/fetch_leaderboard.py --top 10
}

可用参数:

  • - --top N — 显示的模型数量(默认:10)
  • --sort metric — 按score、cost、time或runs排序(默认:score)
  • --model filter — 筛选包含此字符串的模型(不区分大小写)
  • --json — 输出原始JSON以供进一步处理

3. 格式化响应

在代码块中按原样呈现输出。在表格后添加简短的一行见解:

  • - 突出显示最佳表现者及其得分
  • 如果用户询问特定模型,评论其相对于整体的排名
  • 如果按成本排序,注明最佳性价比(得分/成本比)

4. 错误处理

  • - 如果脚本因curl错误失败 → 报告错误,建议检查网络连接
  • 如果脚本无法解析数据 → 网站结构可能已更改,告知用户
  • 如果没有模型匹配筛选条件 → 说明情况并建议扩大搜索范围

示例

用户输入参数预期行为
显示PinchBench排行榜--top 10按得分显示前10名
哪个模型在OpenClaw上最便宜?
--sort cost --top 10 | 按成本排序显示前10名 | | Claude与GPT相比如何? | --model claude然后--model gpt | 显示两者并进行比较 | | PinchBench上最快的模型是什么? | --sort time --top 5 | 按执行时间显示前5名 |

标签

skill ai

通过对话安装

该技能支持在以下平台通过对话安装:

OpenClaw WorkBuddy QClaw Kimi Claude

方式一:安装 SkillHub 和技能

帮我安装 SkillHub 和 who-wins-1776205323 技能

方式二:设置 SkillHub 为优先技能安装源

设置 SkillHub 为我的优先技能安装源,然后帮我安装 who-wins-1776205323 技能

通过命令行安装

skillhub install who-wins-1776205323

下载

⬇ 下载 who-wins v1.0.0(免费)

文件大小: 3.75 KB | 发布时间: 2026-4-15 12:05

v1.0.0 最新 2026-4-15 12:05
Initial release.

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
返回顶部