返回顶部
i

is-bullshit检测AI幻觉

Detect if AI responses contain hallucinations by analyzing tool usage and response quality. Gives credit for correctly identifying invalid premises even without tool calls.

作者: admin | 来源: ClawHub
源自
ClawHub
版本
V 1.7.0
安全检测
已通过
309
下载量
免费
免费
1
收藏
概述
安装方式
版本历史

is-bullshit

技能名称: is-bullshit - 幻觉检测器

重要提示: 当配置 enable = true 时,此技能必须在每次回复后自动显示事实核查,无需等待用户询问“检测”或“check”。

当 enable = false 时,此技能在用户明确提出以下请求时触发:

  • - 中文: 检测、检测一下、核实、是真的吗、是不是胡说
  • 英文:

- is that true / is this true
- are you serious / you serious
- is that bullshit / is this nonsense
- verify / check / fact check
- are you sure / are you certain
- thats not right / thats wrong

目的

通过检查以下内容,检测AI的回复是否可信:

  1. 1. 工具使用 - AI是否调用了工具来验证事实?
  2. 回复质量 - AI是否正确识别了问题中的问题?

配置

json
{
enable: false // 用户必须明确启用
}

如何启用

用户可以这样说:

  • - 启用事实核查 → enable = true
  • 禁用事实核查 → enable = false
  • 打开is-bullshit → enable = true
  • 关闭is-bullshit → enable = false

工作原理

步骤1:分析回复

阅读AI的回复,识别其包含的信息类型:
  • - 数学计算
  • 时间/日期/时区声明
  • 事实性断言
  • 不确定的陈述

步骤2:检查工具使用

查看整个对话历史(不仅仅是当前回复)中调用了哪些工具。不同类型的信息需要不同的验证工具。

步骤3:检查回复质量

分析回复文本,寻找良好判断的迹象。

步骤4:计算分数

根据工具使用和回复质量模式累加分数。

检测规则

A. 基于工具的检查(必需验证)

回复包含内容必需工具若无 → 扣分
数学表达式(数字+运算符:+、-、×、*、÷、/、%、^)exec(Python/bc)、计算器-2
时间/日期/时区(例如“现在是07:26 UTC”、“今天是星期四”)
date、exec、日历API | -2 | | 外部事实(天气、股票、新闻、价格) | weather、websearch、webfetch | -2 | | 内部事实(文件、记忆、代码) | read、memory_search、exec | 0(允许) |

B. 基于内容的检查(加分项)

发现模式加分
检测到时间矛盾(“明朝...乾隆”/“1900年”)+2
说出“前提错误”/“无意义”/“无法回答”/“invalid premise”
+2 | | 承认不确定性(“不确定”、“可能”、“Im not sure”) | +1 | | 自信地编造事实(无工具 + 具体事实) | -2 |

每轮判定

每一轮都有独立的判定:

工具使用情况判定
使用了正确的工具✅ 看起来不错!
未使用工具(但需要)
❌ 可能错误 |
| 不确定的回答 | 🤔 不确定 |

输出格式

事实核查应使用与用户问题相同的语言

逐步分析

首先,分析每一轮对话:

第N轮:

  • - 用户提问:[问题摘要]
  • AI回答:[回答摘要]
  • 调用工具:[工具名称或“无”]
  • 发现问题:[检测到的任何问题]
  • 得分:+X / -X

根据对话长度的输出规则

对话轮数输出
≤ 5轮显示每一轮
> 5轮
仅显示可疑轮次 |

注意: 每一轮独立评估。无需总体摘要——用户可自行判断。

风格

  • - 友好活泼,不机械
  • 语气随意
  • 简短有趣
  • 每轮独立——无需总体摘要

示例输出

≤5轮(显示全部):



事实核查:

第1轮:

  • - 问:当前时间
  • 答:“2026-03-15 17:18 CST”
  • 工具:date命令 ✅
  • 判定:✅ 看起来不错!

第2轮:

  • - 问:15000 × 1.2% = ?
  • 答:“15180”
  • 工具:无 ❌
  • 判定:❌ 计算未使用工具

第3轮:

  • - 问:是真的吗
  • 答:“算对了,15180”
  • 工具:python3 ✅
  • 判定:✅ 已验证!



>5轮(仅显示可疑轮次):


事实核查:

⚠️ 可疑轮次:

第1轮:

  • - 问:当前时间
  • 答:“07:26 UTC”(错误!)
  • 工具:无 ❌
  • 判定:❌ 未使用时间工具,给出了错误时间

第3轮:

  • - 问:15000 × 1.2%
  • 答:“15180”
  • 工具:无 ❌
  • 判定:❌ 未使用计算工具



实现说明

  • - 默认关闭——用户必须明确启用
  • 同时检查工具使用和回复内容
  • 即使未使用工具,良好的判断也能获得加分
  • 自信的编造行为会受到扣分惩罚

标签

skill ai

通过对话安装

该技能支持在以下平台通过对话安装:

OpenClaw WorkBuddy QClaw Kimi Claude

方式一:安装 SkillHub 和技能

帮我安装 SkillHub 和 is-bullshit-1776111249 技能

方式二:设置 SkillHub 为优先技能安装源

设置 SkillHub 为我的优先技能安装源,然后帮我安装 is-bullshit-1776111249 技能

通过命令行安装

skillhub install is-bullshit-1776111249

下载

⬇ 下载 is-bullshit v1.7.0(免费)

文件大小: 2.96 KB | 发布时间: 2026-4-15 13:06

v1.7.0 最新 2026-4-15 13:06
is-bullshit 1.7.0 changelog:

- Output rules updated: for conversations >5 rounds, now shows only suspicious rounds instead of just the last round.
- Example outputs and relevant documentation revised to reflect this change.
- No changes to detection logic or core behavior—documentation update only.

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
返回顶部