返回顶部
a

agent-sentinel哨兵代理

>

作者: admin | 来源: ClawHub
源自
ClawHub
版本
V 1.0.3
安全检测
已通过
107
下载量
免费
免费
0
收藏
概述
安装方式
版本历史

agent-sentinel

agent-sentinel

目的

该技能是代理意图与任何高风险工具执行之间的强制性评估层。在调用此脚本并收到结果中的decision: ALLOW或decision: ADVISE之前,不允许使用拦截触发器下列出的工具。

将其视为断路器——如果哨兵触发,电路断开,操作停止。



拦截触发器

在运行eval_engine.py并解析其响应之前,禁止调用以下任何工具。

工具触发条件
websearch每次搜索,无一例外
bookingtool
每次航班、酒店或旅行预订 | | shell_command | 每次Shell或终端执行 | | payment_tool | 每次支付、结账或购买 |

不适用任何例外。 即使你确定操作是安全的,也必须调用哨兵。这是一项策略要求,而非建议。



如何调用哨兵

在调用任何触发工具之前运行以下命令:

bash
python3 ~/.openclaw/skills/agent-sentinel/eval_engine.py \
--intent <用户请求的内容> \
--action tool|websearch|shellcommand|paymenttool|other> \
--data <精确的有效载荷:URL、航班详情、命令、金额> \
[--provider anthropic|openai|ollama] \
[--model <模型ID>] \
[--configpath /path/to/SENTINELCONFIG.md]

示例——航班预订:
bash
python3 ~/.openclaw/skills/agent-sentinel/eval_engine.py \
--intent 为春假预订一次奥兰多家庭旅行 \
--action booking_tool \
--data 达美航空,出发08:30,到达11:45,总价389美元,直飞,经济舱

示例——网络搜索:
bash
python3 ~/.openclaw/skills/agent-sentinel/eval_engine.py \
--intent 为我女儿寻找适龄的科学视频 \
--action web_search \
--data https://www.youtube.com/results?search_query=kids+science+experiments

重要提示: 脚本将思维链推理写入stderr,并仅向stdout输出有效的JSON。使用json.loads(...)解析stdout。不要解析stderr。


响应模式

脚本始终返回一个JSON对象:

json
{
decision: ALLOW | BLOCK | ADVISE,
severity: LOW | MEDIUM | HIGH,
reason: <清晰解释>,
alternatives: <解决违规的建议>
}



决策处理规则

ALLOW — 继续执行

操作已通过所有检查。继续执行预期的工具调用。
如果结果中包含severity: LOW且决策为ALLOW,则将任何信息性说明作为软建议呈现给用户,但不要阻止。



ADVISE — 暂停并确认

操作未被阻止,但检测到偏好不匹配或软限制警告。你必须:

  1. 1. 在调用工具前停止
  2. 将reason和alternatives字段逐字呈现给用户。
  3. 明确询问用户:您是否仍要继续?
  4. 仅在用户确认后继续。 如果用户在此轮对话中未确认,则视为BLOCK。

向用户展示ADVISE响应的示例:

在完成您的请求前,我注意到一条建议:
建议: 价格480美元在您500美元预算上限的15%范围内。
建议: 请确认此费用是否可接受,或者我可以搜索更便宜的替代方案。
您希望我继续此预订,还是寻找更便宜的选择?


BLOCK — 立即停止

严格禁止继续执行。 不要尝试:

  • - 使用不同参数重试相同操作
  • 寻找变通方法或替代路径以达到相同结果
  • 通过将操作拆分为更小的步骤来绕过哨兵
  • 声称哨兵错误并继续执行

你必须:

  1. 1. 不要调用触发工具。
  2. 向用户道歉并清晰解释违规原因。
  3. 准确引用reason字段。
  4. 如果alternatives非空,将其作为推荐的前进路径呈现。
  5. 如果用户希望继续,要求明确的用户覆盖。

向用户展示BLOCK响应的示例(预算违规):

很抱歉——我无法完成此预订。
已阻止: 价格650.00美元超过了您500.00美元的最高预算。
您可以做什么: 寻找价格在500美元或以下的选择。考虑灵活日期或替代机场。
如果您想仅为此预订覆盖此限制,请说override,我将要求您在继续前确认金额。

向用户展示BLOCK响应的示例(儿童安全违规):

很抱歉——我无法执行此搜索。
已阻止: 此内容受家庭儿童安全策略限制(严重性:高)。
原因: [哨兵提供的原因]
请修改您的请求。如果您认为这是错误,家庭中的成年人可以查看并在SENTINEL_CONFIG.md中覆盖该策略。


覆盖协议

如果用户对BLOCK决策明确说override,你必须:

  1. 1. 向用户重复阻止的reason和severity。
  2. 要求明确的书面确认请键入I confirm以忽略此策略违规继续执行。
  3. 在响应中记录覆盖(例如,正在以用户覆盖方式继续执行。)。
  4. 永远不要为severity: HIGH(一级儿童安全)的BLOCK提供覆盖,除非成年用户在同一对话轮次中已明确书面建立该权限。

安装依赖

bash
cd ~/.openclaw/skills/agent-sentinel
python3 -m venv .venv
source .venv/bin/activate
pip install -r requirements.txt



配置

编辑SENTINEL_CONFIG.md(在技能目录或~/.openclaw/中)以更新您的偏好和安全策略。请参阅该文件以获取所有支持键的完整文档。

类型效果
ChildAgeLimit整数激活儿童安全层级
Max_Budget
$NNN | 硬预算上限(超过则BLOCK,达到85%则ADVISE) |
| NightFlightsBlocked | true/false | 阻止夜间时段航班 |
| NightFlightWindow | HH:MM - HH:MM | 夜间限制时段 |
| Preferred_Airlines | 逗号分隔列表 | 软偏好(缺失则ADVISE) |
| Blocked_Airlines | 逗号分隔列表 | 对列出的航空公司硬阻止 |
| Max_Stops | 整数 | 如果航班超过经停次数则BLOCK |
| Preferred_Cabin | 字符串 | 如果检测到不同舱位则ADVISE |
| MaxBookingAdvance_Days | 整数 | 如果预订时间过早则ADVISE |

标签

skill ai

通过对话安装

该技能支持在以下平台通过对话安装:

OpenClaw WorkBuddy QClaw Kimi Claude

方式一:安装 SkillHub 和技能

帮我安装 SkillHub 和 vigilance-1776108422 技能

方式二:设置 SkillHub 为优先技能安装源

设置 SkillHub 为我的优先技能安装源,然后帮我安装 vigilance-1776108422 技能

通过命令行安装

skillhub install vigilance-1776108422

下载

⬇ 下载 agent-sentinel v1.0.3(免费)

文件大小: 25.25 KB | 发布时间: 2026-4-14 13:18

v1.0.3 最新 2026-4-14 13:18
**Major update: Initial release of the agent-sentinel skill (Evaluate-before-Execute guardrail for OpenClaw agents).**

- Introduces a mandatory evaluation layer ("agent-sentinel") enforcing safety and compliance before any high-stakes tool call.
- Implements strict GO / NO-GO decisions (ALLOW, BLOCK, ADVISE) for critical actions—booking, payment, web search, and shell commands—based on user and safety policy specified in SENTINEL_CONFIG.md.
- Provides a clear command-line interface and response schema; emits structured JSON decisions with severity and suggested alternatives.
- Enforces robust child-safety, budget, and travel preferences via a configurable policy file.
- Includes explicit user override and advisory protocols for handling preference and policy violations.
- Complete documentation of configuration, invocation, and decision handling in the new SKILL.md.

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
返回顶部