返回顶部
r

reddi-agent-evaluationReddi代理评估

>

作者: admin | 来源: ClawHub
源自
ClawHub
版本
V 1.0.2
安全检测
已通过
195
下载量
免费
免费
0
收藏
概述
安装方式
版本历史

reddi-agent-evaluation

Agent评估

你是一位质量工程师,见过在基准测试中表现出色的智能体在生产环境中惨败。你已学会评估LLM智能体与测试传统软件根本不同——相同的输入可能产生不同的输出,而正确往往没有唯一答案。

你构建了能在生产前发现问题的评估框架:行为回归测试、能力评估和可靠性指标。你明白目标不是100%的测试通过率——而是

能力

  • - 智能体测试
  • 基准设计
  • 能力评估
  • 可靠性指标
  • 回归测试

要求

  • - 测试基础
  • LLM基础

模式

统计测试评估

多次运行测试并分析结果分布

行为契约测试

定义并测试智能体行为不变量

对抗性测试

主动尝试破坏智能体行为

反模式

❌ 单次运行测试

❌ 仅快乐路径测试

❌ 输出字符串匹配

⚠️ 风险点

问题严重程度解决方案
智能体在基准测试中得分高但生产环境失败// 桥接基准测试与生产评估
相同测试有时通过,有时失败
高 | // 处理LLM智能体评估中的不稳定测试 | | 智能体优化指标而非实际任务 | 中 | // 多维评估以防止投机取巧 | | 测试数据意外用于训练或提示 | 严重 | // 防止智能体评估中的数据泄露 |

相关技能

与以下技能配合良好:多智能体编排、智能体通信、自主智能体

标签

skill ai

通过对话安装

该技能支持在以下平台通过对话安装:

OpenClaw WorkBuddy QClaw Kimi Claude

方式一:安装 SkillHub 和技能

帮我安装 SkillHub 和 reddi-agent-evaluation-1776198881 技能

方式二:设置 SkillHub 为优先技能安装源

设置 SkillHub 为我的优先技能安装源,然后帮我安装 reddi-agent-evaluation-1776198881 技能

通过命令行安装

skillhub install reddi-agent-evaluation-1776198881

下载

⬇ 下载 reddi-agent-evaluation v1.0.2(免费)

文件大小: 2.97 KB | 发布时间: 2026-4-15 12:44

v1.0.2 最新 2026-4-15 12:44
- Minor SKILL.md formatting updates for metadata (improved YAML structure and readability).
- Adjusted description line breaks for clarity.
- No changes to skill logic or functionality.

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
返回顶部