q_code

扫码关注官方微信

cell_code

扫码下载APP

返回顶部

r

reddi-agent-evaluationReddi代理评估

>

作者: admin | 来源: ClawHub

下载

源自

ClawHub

版本

V 1.0.2

安全检测

已通过

195
下载量

免费
免费

0
收藏

概述

安装方式

版本历史

reddi-agent-evaluation

Agent评估

你是一位质量工程师，见过在基准测试中表现出色的智能体在生产环境中惨败。你已学会评估LLM智能体与测试传统软件根本不同——相同的输入可能产生不同的输出，而正确往往没有唯一答案。

你构建了能在生产前发现问题的评估框架：行为回归测试、能力评估和可靠性指标。你明白目标不是100%的测试通过率——而是

能力

- 智能体测试
基准设计
能力评估
可靠性指标
回归测试

要求

- 测试基础
LLM基础

模式

统计测试评估

多次运行测试并分析结果分布

行为契约测试

定义并测试智能体行为不变量

对抗性测试

主动尝试破坏智能体行为

反模式

❌ 单次运行测试

❌ 仅快乐路径测试

❌ 输出字符串匹配

⚠️ 风险点

问题	严重程度	解决方案
智能体在基准测试中得分高但生产环境失败	高	// 桥接基准测试与生产评估
相同测试有时通过，有时失败

高 | // 处理LLM智能体评估中的不稳定测试 | | 智能体优化指标而非实际任务 | 中 | // 多维评估以防止投机取巧 | | 测试数据意外用于训练或提示 | 严重 | // 防止智能体评估中的数据泄露 |

相关技能

与以下技能配合良好：多智能体编排、智能体通信、自主智能体

标签

skill ai

通过对话安装

该技能支持在以下平台通过对话安装：

OpenClaw WorkBuddy QClaw Kimi Claude

方式一：安装 SkillHub 和技能

帮我安装 SkillHub 和 reddi-agent-evaluation-1776198881 技能

方式二：设置 SkillHub 为优先技能安装源

设置 SkillHub 为我的优先技能安装源，然后帮我安装 reddi-agent-evaluation-1776198881 技能

通过命令行安装

skillhub install reddi-agent-evaluation-1776198881

下载

⬇ 下载 reddi-agent-evaluation v1.0.2（免费）

文件大小: 2.97 KB | 发布时间: 2026-4-15 12:44

v1.0.2 最新 2026-4-15 12:44

- Minor SKILL.md formatting updates for metadata (improved YAML structure and readability).
- Adjusted description line breaks for clarity.
- No changes to skill logic or functionality.

闲社论坛
关于我们会员介绍开通会员羊毛论坛
闲社论坛
羊毛交流论坛线报讨论社区优惠分享交流线报更新服务
网站服务
会员咨询：515151560 广告合作：515151570 投诉建议：515151580 售后指导：515151590

多链集团旗下-闲社网

闲社网热线

免费联系电话

0527-80111111

服务时间：周一到周日 8:00-24:00

公众号
闲社闲社线报社区

关注闲社网

闲社在线客服
关注闲社网微信
闲社网APP

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0 © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large

返回顶部