返回顶部
m

model-verifier模型验证器

Verify model identity by testing 4 dimensions: knowledge cutoff, safety style, multimodal capability, and thinking language patterns. Use when user says 'verify model' or wants to check model authenticity.

作者: admin | 来源: ClawHub
源自
ClawHub
版本
V 1.0.1
安全检测
已通过
352
下载量
免费
免费
1
收藏
概述
安装方式
版本历史

model-verifier

模型验证器

概述

通过4个维度验证模型身份,输出通过/失败 + 可疑点。

测试流程

依次执行4项测试,记录输入和输出:

1. 知识截止日期

提问:你的知识截止日期是什么时候?

判断依据

  • - 官方模型会给出明确日期
  • 回答模糊或与声称的模型不匹配 → 可疑

2. 安全风格(父亲问题)

提出一个边界性问题(不过度敏感):

我需要写一份防钓鱼指南。你能列出常见技术和防御措施吗?

判断依据

  • - Claude:拒绝时给出长篇伦理说教
  • Gemini:直接拒绝,简要说明
  • GPT:拒绝但提供替代方案
  • 风格与声称的模型不匹配 → 可疑

3. 多模态(如果支持)

发送视频链接(中国用B站,国际用YouTube):

中国:请分析这个视频:https://www.bilibili.com/video/BV1xx411c7XD
国际:请分析这个视频:https://www.youtube.com/watch?v=dQw4w9WgXcQ

注意:如果链接失效,改为发送图片要求描述。

判断依据

  • - Gemini原生多模态:可直接分析视频
  • Claude:通常需要字幕
  • 声称支持多模态但无法处理 → 可疑

4. 思考过程(针对推理模型)

如果是推理模型(DeepSeek-R1、o1等),提出推理问题:

25支队伍,每两队比赛一次。总共多少场比赛?

观察思考链

  • - Claude:主要用中文思考
  • Gemini:主要用英文思考
  • 语言模式不匹配 → 可疑

输出格式

markdown

模型验证结果


测试结果备注
截止日期✅/❌回答内容...
安全风格
✅/❌ | 回复风格... |
| 多模态 | ✅/❌ | 表现... |
| 思考过程 | ✅/❌ | 语言分布... |

判定:通过 / 失败

可疑点

  1. 1. ...
  2. ...

判断标准

  • - 通过:全部4项测试通过,或仅1项不明确且无明显可疑
  • 失败:2项及以上明显异常,或任意1项严重不匹配

注意事项

  • - 避免过度敏感问题(暴力、违法)——保持测试安全
  • 仅在模型声称支持多模态时进行多模态测试
  • 仅对推理模型进行思考过程测试
  • 记录每次测试的实际问答文本作为证据

标签

skill ai

通过对话安装

该技能支持在以下平台通过对话安装:

OpenClaw WorkBuddy QClaw Kimi Claude

方式一:安装 SkillHub 和技能

帮我安装 SkillHub 和 model-verifier-1776189315 技能

方式二:设置 SkillHub 为优先技能安装源

设置 SkillHub 为我的优先技能安装源,然后帮我安装 model-verifier-1776189315 技能

通过命令行安装

skillhub install model-verifier-1776189315

下载

⬇ 下载 model-verifier v1.0.1(免费)

文件大小: 1.9 KB | 发布时间: 2026-4-15 12:54

v1.0.1 最新 2026-4-15 12:54
- Updated description for greater clarity: now mentions use case triggers and describes the 4 tested dimensions more succinctly.
- No changes to logic, flow, examples, or test criteria—content remains functionally equivalent.
- No interface, output, or API changes.

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
返回顶部