返回顶部
o

openclaw-opsOpenClaw故障诊断

Diagnose and prevent OpenClaw agent failures — session bloat, lane deadlocks, bootstrap truncation, auth errors, compaction timeouts, and more. Use this skill whenever an OpenClaw agent stops responding, runs slowly, fails to process messages, throws gateway errors, or needs operational health checks. Also use when setting up cron jobs, configuring multi-model failover, or planning AGENTS.md changes. Trigger on: 'agent not responding', 'openclaw health', 'gateway errors', 'session stuck', 'cron

作者: admin | 来源: ClawHub
源自
ClawHub
版本
V 1.0.0
安全检测
已通过
123
下载量
免费
免费
0
收藏
概述
安装方式
版本历史

openclaw-ops

OpenClaw Ops

OpenClaw代理的操作健康诊断与设计模式。此技能帮助您诊断代理停止响应的原因,修复根本原因,并安装预防性护栏以防止问题再次发生。

它涵盖两个互补领域:运维诊断(立即发现并修复故障)和设计模式(从结构上预防故障)。它优先选择最安全可靠的路径,将紧急恢复方案保留给真正的网关死锁情况。

快速入门:代理无响应?

按顺序执行以下分类排查。大多数中断由前3种原因引起。

  1. 1. 通道死锁 — agent:main:main上的定时任务阻塞所有交互消息。检查~/.openclaw/cron/jobs.json中是否有sessionKey: agent:main:main的任务。修复:改为agent:main:cron:或agent:main:isolated。
  2. 会话膨胀 — 超过5MB的会话文件导致压缩超时(600秒限制)。检查~/.openclaw/agents/main/sessions/中的大型.jsonl文件。修复:归档会话并从sessions.json中移除。
  3. 引导截断 — AGENTS.md超过20,000字符限制,导致压缩在膨胀的引导文件上超时。检查:wc -c < ~/.openclaw/workspace/AGENTS.md。修复:将冗长部分移至AGENTS-REFERENCE.md。
  4. 认证失败 — 代理级别的auth-profiles.json中缺少提供商密钥。检查gateway.err.log中的FailoverError: No API key found。修复:将配置文件添加到~/.openclaw/agents/main/agent/auth-profiles.json。
  5. 网关堆内存溢出 — Node.js在处理过大会话时内存耗尽。检查gateway.err.log中的FATAL ERROR: Reached heap limit。修复:先清除膨胀的会话,然后重启网关。

如果以上都不匹配,请阅读references/failure-patterns.md获取从真实网关日志中提取的10个故障类别的完整目录。

捆绑脚本

scripts/中包含两个经过实战检验的bash脚本。它们可以独立运行,也可以注册为OpenClaw定时任务。

session-health-watchdog.sh

一次性监控五个领域的全面健康检查:

  • - 会话文件大小(5MB警告,10MB严重)
  • 过期会话锁(10分钟警告,30分钟严重)
  • 路由到agent:main:main的定时任务(始终严重)
  • AGENTS.md引导预算使用情况
  • gateway.err.log中最近的卡顿会话警告(最近15分钟)

独立运行: bash scripts/session-health-watchdog.sh

注册为定时任务(建议每30分钟):
bash
openclaw cron add \
--name Session Health Watchdog \
--prompt Run the session health watchdog and report results \
--cron /30 * \
--session-key agent:main:cron:health-watchdog \
--model openai-codex/gpt-5.4

看门狗输出all clear及统计信息,或带有严重级别的警报摘要。发现问题时以非零状态退出,适合用于监控管道。

bootstrap-budget-check.sh

详细的AGENTS.md大小分析,逐部分分解显示哪些部分消耗最多预算。使用可视化条形图和阈值警报。

阈值:

  • - 绿色:低于75% — 有充足余量
  • 黄色:75-85% — 注意增长
  • 橙色:85-95% — 尽快整合
  • 红色:95%以上 — 将被截断,立即修剪

独立运行: bash scripts/bootstrap-budget-check.sh

会话通道架构

理解会话通道是OpenClaw可靠性最重要的概念。每条消息、定时任务和子代理都在会话通道中运行——一个一次只能处理一个任务的键控槽位。

黄金法则: agent:main:main是交互通道。绝不要将定时任务放在上面。

当定时任务在主通道上运行时,每条交互消息(Telegram、Discord、CLI)都会在其后排队。如果定时任务运行2分钟以上或卡住,代理将表现为无响应。

通道命名约定

用例会话键模式示例
交互(Telegram、CLI)agent:main:main保留 — 绝不用作定时任务
定时任务
agent:main:cron: | agent:main:cron:recall-archiver | | 隔离的一次性任务 | agent:main:isolated | 可丢弃的任务 | | 特定频道 | agent:main:telegram:group: | 每个聊天的会话 |

验证定时任务通道

在部署任何定时任务之前,验证其会话键:
bash
python3 -c
import json
with open($HOME/.openclaw/cron/jobs.json) as f:
jobs = json.load(f)[jobs]
bad = [j[name] for j in jobs if j.get(enabled, True) and j.get(sessionKey) == agent:main:main]
if bad:
print(fBLOCKED: {len(bad)} crons on main lane: {bad})
else:
print(All crons properly isolated.)

认证配置

OpenClaw使用两层认证系统。全局配置(openclaw.json)声明可用的提供商,但代理需要自己的auth-profiles.json才能实际进行认证。

常见错误: 在全局配置中添加提供商但忘记代理级别的配置文件。网关静默尝试并失败,记录FailoverError: No API key found for provider X。

修复模式:
json
// ~/.openclaw/agents/main/agent/auth-profiles.json
{
profiles: {
provider-name:default: {
keyRef: ENVVARNAME
}
},
lastGood: {
provider-name: provider-name:default
}
}

添加后验证:grep FailoverError.*API key ~/.openclaw/logs/gateway.err.log | tail -5

多模型故障转移

OpenClaw通过故障转移链路由到模型提供商。当主模型限速或超时时,会级联到下一个。理解这个链可以防止误报。

常见故障转移错误(来自真实日志):

  • - FailoverError: LLM request timed out — 提供商缓慢,故障转移启动(3周内238次)
  • FailoverError: API rate limit reached — 来自提供商的429错误(68次)
  • FailoverError: The AI service is temporarily overloaded — 来自提供商的503/529错误(106次)
  • FailoverError: Request was aborted — 客户端取消(58次)

这些在多模型设置中是预期的。只有当链中所有提供商同时失败,或冷却窗口重叠导致没有提供商可用时,才会成为问题。

诊断: 检查特定提供商是否持续失败:
bash
grep FailoverError ~/.openclaw/logs/gateway.err.log | \
grep -oE provider=[^ ]+ | sort | uniq -c | sort -rn | head -10

AGENTS.md管理

引导文件(AGENTS.md)加载到每个新会话中。它有严格的20,000字符限制。超过限制会导致静默截断,这会破坏指令并使压缩不可靠。

预算策略:

  1. 1. 保持AGENTS.md精简 — 仅包含身份、核心规则、关键工作流
  2. 将详细内容移至AGENTS-REFERENCE.md — 代理可按需读取
  3. 使用scripts/bootstrap-budget-check.sh监控逐部分使用情况
  4. 目标使用率50-70%,为自然增长留出空间

AGENTS.md过大的危险信号:

  • - 在不是特别大的会话上出现压缩超时
  • 代理忘记AGENTS.md后面部分的指令
  • 新会话以截断或乱码的上下文开始

应用的设计模式

此技能应用了Agentic Design Patterns框架(Gulli, 2025)中的六种模式。理解每个护栏存在的原因有助于您将其适应到自己的设置中。

有关完整的模式描述,请阅读references/design-patterns.md。

模式应用位置预防的问题
路由(P2)通道架构定时任务/交互死锁
异常处理(P12)
看门狗警报 | 静默失败被忽视 |
| 目标监控(P11) | 引导预算检查 | 指令截断 |
| 资源感知优化(P16) | 会话大小限制 | 内存溢出崩溃和压缩超时 |
| 评估与监控(P19) | 日志扫描 | 跨错误类别的模式检测 |

标签

skill ai

通过对话安装

该技能支持在以下平台通过对话安装:

OpenClaw WorkBuddy QClaw Kimi Claude

方式一:安装 SkillHub 和技能

帮我安装 SkillHub 和 openclaw-operator-1776086481 技能

方式二:设置 SkillHub 为优先技能安装源

设置 SkillHub 为我的优先技能安装源,然后帮我安装 openclaw-operator-1776086481 技能

通过命令行安装

skillhub install openclaw-operator-1776086481

下载

⬇ 下载 openclaw-ops v1.0.0(免费)

文件大小: 16.41 KB | 发布时间: 2026-4-14 13:06

v1.0.0 最新 2026-4-14 13:06
Initial release: OpenClaw ops diagnostics, failure-pattern catalog, bootstrap budget check, session health watchdog, and safety-first break-glass recovery guidance.

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
返回顶部