返回顶部
l

llm-judgeLLM评判

Use when comparing two or more code implementations against a spec or requirements doc. Triggers on \"which repo is better\", \"compare these implementations\", \"evaluate both solutions\", \"rank these codebases\", or \"judge which approach wins\". Also covers choosing between competing PRs or vendor submissions solving the same problem. Does NOT review a single codebase for quality \u2014 use code review skills instead. Does NOT evaluate strategy docs \u2014 use strategy-review. Requires a spe

作者: admin | 来源: ClawHub
源自
ClawHub
版本
V 1.0.2
安全检测
已通过
199
下载量
免费
免费
0
收藏
概述
安装方式
版本历史

llm-judge

LLM Judge

使用结构化评估比较多个仓库中的代码实现。

用法

bash
/beagle-analysis:llm-judge <规格文件> <仓库1> <仓库2> [仓库3...] [--labels=...] [--weights=...] [--branch=...]

参数

参数必需描述
spec规格/需求文档的路径
repos
是 | 2个及以上待比较的仓库路径 | | --labels | 否 | 逗号分隔的标签(默认:目录名) | | --weights | 否 | 覆盖权重,例如 functionality:40,security:30 | | --branch | 否 | 与主分支比较的分支(默认:main) |

工作流程

  1. 1. 将 $ARGUMENTS 解析为 specpath、repopaths、labels、weights 和 branch。
  2. 验证规格文件、每个仓库路径以及最小仓库数量。
  3. 将规格文档读入内存。
  4. 加载此技能及配套的参考文件。
  5. 为每个仓库生成一个第一阶段仓库代理,仅收集事实。
  6. 在继续之前验证仓库代理的 JSON 结果。
  7. 为每个维度生成一个第二阶段评判代理。
  8. 汇总分数,计算加权总分,对仓库进行排名,并撰写报告。
  9. 显示 Markdown 摘要并验证 JSON 报告。

命令工作流程

步骤 1:解析参数

解析 $ARGUMENTS 以提取:

  • - specpath:第一个位置参数
  • repopaths:剩余的位置参数(必须为 2 个及以上)
  • labels:来自 --labels 或从目录名派生
  • weights:来自 --weights 或使用默认值
  • branch:来自 --branch 或 main

默认权重:

json
{
functionality: 30,
security: 25,
tests: 20,
overengineering: 15,
dead_code: 10
}

步骤 2:验证输入

bash
[ -f $SPECPATH ] || { echo 错误:未找到规格文件:$SPECPATH; exit 1; }

for repo in ${REPO_PATHS[@]}; do
[ -d $repo/.git ] || { echo 错误:不是 Git 仓库:$repo; exit 1; }
done

[ ${#REPO_PATHS[@]} -ge 2 ] || { echo 错误:至少需要 2 个仓库进行比较; exit 1; }

步骤 3:读取规格文档

bash
SPECCONTENT=$(cat $SPECPATH) || { echo 错误:读取规格文件失败:$SPEC_PATH; exit 1; }
[ -z $SPECCONTENT ] && { echo 错误:规格文件为空:$SPECPATH; exit 1; }

步骤 4:加载技能

加载 llm-judge 技能:Skill(skill: beagle-analysis:llm-judge)

步骤 5:第一阶段 - 生成仓库代理

为每个仓库生成一个任务:

text
你是 LLM Judge 评估的第一阶段仓库代理。

你的仓库: $LABEL 位于 $REPO_PATH

规格文档:
$SPEC_CONTENT

指令:

  1. 1. 加载技能:Skill(skill: beagle-analysis:llm-judge)
  2. 阅读 references/repo-agent.md 获取详细指令
  3. 阅读 references/fact-schema.md 了解输出格式
  4. 加载 Skill(skill: beagle-core:llm-artifacts-detection) 进行分析

探索仓库并收集事实。仅返回符合事实模式的合法 JSON。

不要评分或评判。仅收集事实。

将所有仓库输出收集到 ALL_FACTS。

步骤 6:验证第一阶段结果

bash
echo $FACTS | python3 -c import json,sys; json.load(sys.stdin) 2>/dev/null || { echo 错误:来自 $LABEL 的 JSON 无效; exit 1; }

步骤 7:第二阶段 - 生成评判代理

生成五个评判代理,每个维度一个:

text
你是 LLM Judge 评估的 $DIMENSION 评判。

规格文档:
$SPEC_CONTENT

来自所有仓库的事实:
$ALLFACTSJSON

指令:

  1. 1. 加载技能:Skill(skill: beagle-analysis:llm-judge)
  2. 阅读 references/judge-agents.md 获取详细指令
  3. 阅读 references/scoring-rubrics.md 了解 $DIMENSION 评分标准

对每个仓库在 $DIMENSION 维度上评分。仅返回包含分数和理由的合法 JSON。

步骤 8:汇总分数

python
for repo_label in labels:
scores[repo_label] = {}
for dimension in dimensions:
scores[repolabel][dimension] = judgeoutputs[dimension][scores][repo_label]

weighted_total = sum(
scores[repo_label][dim][score] * weights[dim] / 100
for dim in dimensions
)
scores[repolabel][weightedtotal] = round(weighted_total, 2)

ranking = sorted(labels, key=lambda l: scores[l][weighted_total], reverse=True)

步骤 9:生成裁决

命名获胜者,解释其获胜原因,并注明任何接近的竞争或权衡。

步骤 10:写入 JSON 报告

bash
mkdir -p .beagle

写入 .beagle/llm-judge-report.json,包含版本、时间戳、仓库元数据、权重、分数、排名和裁决。

步骤 11:显示摘要

渲染一个 Markdown 摘要,包含分数表、排名、裁决和详细理由。

步骤 12:验证

bash
python3 -c import json; json.load(open(.beagle/llm-judge-report.json)) && echo 报告有效

输出结构

生成的报告应包含:

  • - 仓库标签和路径
  • 每个维度的分数和理由
  • 加权总分和排名
  • 解释获胜者的裁决

参考文件

文件用途
references/fact-schema.md第一阶段事实的 JSON 模式
references/scoring-rubrics.md
每个维度的详细评分标准 | | references/repo-agent.md | 第一阶段代理的指令 | | references/judge-agents.md | 第二阶段评判的指令 |

评分模型

维度默认权重评估内容
功能性30%规格符合度,测试通过率
安全性
25% | 漏洞,安全模式 | | 测试质量 | 20% | 覆盖率,DRY 原则,模拟边界 | | 过度工程 | 15% | 不必要的复杂性 | | 死代码 | 10% | 未使用的代码,待办事项 |

评分标准

分数含义
5优秀 - 超出预期
4
良好 - 满足要求,有小问题 | | 3 | 一般 - 功能正常但有明显差距 | | 2 | 低于平均 - 存在重大问题 | | 1 | 差 - 未通过基本要求 |

第一阶段:生成仓库代理

为每个仓库生成一个任务代理,使用:

text
你是 LLM Judge 评估的第一阶段仓库代理。

你的仓库: $REPOLABEL 位于 $REPOPATH
规格文档:
$SPEC_CONTENT

指令: 阅读 @beagle:llm-judge references/repo-agent.md

收集事实并返回一个遵循 references/fact-schema.md 中模式的 JSON 对象。

加载 @beagle:llm-artifacts-detection 进行死代码和过度工程分析。

仅返回合法的 JSON,不要 Markdown 或解释。

将所有仓库代理输出收集到 ALL_FACTS。

第二阶段:生成评判代理

在所有第一阶段代理完成后,生成 5 个评判代理,每个维度一个:

text
你是 LLM Judge 评估的 $DIMENSION 评判。

规格文档:
$SPEC_CONTENT

来自所有仓库的事实:
$ALLFACTSJSON

指令: 阅读 @beagle:llm-judge references/judge-agents.md

使用 references/scoring-rubrics.md 中的评分标准对每个仓库在 $DIMENSION 维度上评分。

仅返回遵循评判输出模式的合法 JSON。

汇总

1.

标签

skill ai

通过对话安装

该技能支持在以下平台通过对话安装:

OpenClaw WorkBuddy QClaw Kimi Claude

方式一:安装 SkillHub 和技能

帮我安装 SkillHub 和 llm-judge-1776125412 技能

方式二:设置 SkillHub 为优先技能安装源

设置 SkillHub 为我的优先技能安装源,然后帮我安装 llm-judge-1776125412 技能

通过命令行安装

skillhub install llm-judge-1776125412

下载

⬇ 下载 llm-judge v1.0.2(免费)

文件大小: 9.8 KB | 发布时间: 2026-4-14 13:25

v1.0.2 最新 2026-4-14 13:25
llm-judge 1.0.2

- Expanded skill description to specify trigger phrases, intended use cases, and clear exclusions (e.g., not for single codebase review or strategy docs).
- Description now clarifies the need for a spec file and 2+ repo paths for operation.
- No changes to workflow or technical steps; all changes are to the skill metadata/documentation.

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
返回顶部