返回顶部
m

multi-site-health-monitor 多站点健康监控

Monitor dozens of websites with configurable health checks, auto-restart alerts, and intelligent alert routing. Use when the user needs uptime tracking, performance monitoring, or automated incident response across multiple domains."

作者: admin | 来源: ClawHub
源自
ClawHub
版本
V 1.0.0
安全检测
已通过
189
下载量
免费
免费
0
收藏
概述
安装方式
版本历史

multi-site-health-monitor

多站点健康监控

概述

多站点健康监控技能可自动对10-100+个网站进行持续监控,支持可配置的健康检查、智能告警路由和自动事件升级。这套生产级监控解决方案集成了SlackPagerDutyDatadogGoogle SheetsWordPress,为您的数字基础设施提供实时可见性。

为何重要

  • - 防止收入损失:在数秒内(而非数小时)检测到停机
  • 减少告警疲劳:智能阈值和去重机制防止通知过载
  • 自动化事件响应:自动重启失败服务,升级至值班团队
  • 多渠道告警:将关键问题路由至PagerDuty,警告路由至Slack,指标路由至Datadog
  • 历史分析:跟踪正常运行时间趋势,识别模式,生成合规报告

关键集成

  • - Slack:实时告警、事件频道、状态仪表板
  • PagerDuty:自动创建事件、值班升级、事件跟踪
  • Datadog:指标采集、自定义仪表板、异常检测
  • Google Sheets:自动报告、SLA跟踪、审计日志
  • WordPress:监控插件健康、主题更新、核心漏洞
  • AWS/Azure:自动重启EC2实例、触发Lambda函数、扩展基础设施

快速入门

立即尝试以下示例提示:

示例1:监控5个关键站点并发送Slack告警

每5分钟监控以下站点,如有失败则通过Slack告警:

  • - https://api.example.com/health
  • https://app.example.com/status
  • https://cdn.example.com/ping
  • https://wordpress.example.com/wp-json/health
  • https://db.example.com/check

告警规则:

  • - 严重(页面宕机):Slack #incidents + PagerDuty
  • 警告(响应慢 >3秒):Slack #alerts
  • 信息(证书过期 <30天):Google Sheets日志

示例2:自动重启失败服务

每2分钟监控 https://payment-service.example.com/health。
如果连续失败3次:

  1. 1. POST请求至 https://restart-api.example.com/restart-payment-service
  2. 向PagerDuty发送事件Payment Service Down
  3. 通知Slack #critical-incidents
  4. 记录至Google Sheets,包含时间戳、错误详情、重启状态

响应超时:10秒
预期响应:HTTP 200,返回{status:healthy}

示例3:WordPress多站点监控

监控以下WordPress站点的健康与安全:

  • - https://site1.example.com/wp-json/wp/v2/health-check
  • https://site2.example.com/wp-json/wp/v2/health-check
  • https://site3.example.com/wp-json/wp/v2/health-check

检查项:

  • - 核心更新可用(超过1周未更新则警告)
  • 插件漏洞(发现任何漏洞则严重)
  • 数据库连接(断开则严重)
  • SSL证书过期(少于30天则警告)

告警目标:

  • - 严重:PagerDuty + Slack #wordpress-critical
  • 警告:Slack #wordpress-alerts
  • 信息:Google Sheets #monitoring-log

示例4:性能阈值监控

每10分钟监控 https://api.example.com/metrics。
在以下情况下告警:

  • - 响应时间 > 2000ms(警告)或 > 5000ms(严重)
  • 错误率 > 1%(警告)或 > 5%(严重)
  • CPU使用率 > 70%(警告)或 > 90%(严重)
  • 内存使用率 > 80%(警告)或 > 95%(严重)

向Datadog发送指标,标签:env:prod, service:api, team:backend



功能

1. 多协议健康检查

通过以下方式监控端点:
  • - HTTP/HTTPS:GET、POST、HEAD请求,支持自定义头
  • TCP:端口连通性检查(如数据库端口3306、5432)
  • DNS:域名解析、DNS传播验证
  • SSL/TLS:证书有效性、过期警告、链验证
  • Ping/ICMP:基础设施节点的基本连通性

示例:使用自定义认证监控API健康

端点:https://api.example.com/health
方法:POST
头:
Authorization: Bearer YOURAPIKEY
User-Agent: MultiSiteMonitor/1.0.0
预期状态:200
预期响应体:{status:healthy,version:2.1.0}
超时:10秒

2. 智能告警路由

  • - 基于严重级别的路由:严重 → PagerDuty + Slack + SMS,警告 → 仅Slack,信息 → Sheets日志
  • 去重:在5分钟窗口内抑制重复告警
  • 升级规则:如果严重问题30分钟以上未解决,自动升级
  • 自定义阈值:为每个端点定义灵敏度(如API端点比博客更严格)
  • 静默时段:在维护窗口期间抑制非关键告警

3. 自动事件响应

  • - Webhook触发器:POST至自定义端点(重启服务、扩展基础设施)
  • AWS集成:自动重启EC2实例、触发Lambda函数
  • 服务重启:通过SSH在远程服务器上执行Shell命令
  • 回滚触发器:如果健康检查失败,回滚部署
  • 通知操作:在Jira、GitHub Issues或Linear中创建工单

4. 性能指标与趋势分析

  • - 响应时间跟踪:在问题变得严重之前检测到性能下降
  • 正常运行时间计算:实时SLA跟踪(99.9%、99.95%、99.99%)
  • 错误率监控:跟踪HTTP 4xx、5xx、超时错误
  • Datadog集成:为仪表板和告警发送自定义指标
  • 历史报告:生成月度正常运行时间报告、SLA合规文档

5. WordPress专用监控

  • - 核心更新:当WordPress核心更新可用时告警
  • 插件漏洞:对照WordPress漏洞数据库检查
  • 主题安全:监控过时或存在漏洞的主题
  • 数据库健康:监控wp_options、表完整性、查询性能
  • 用户活动:跟踪可疑登录尝试、新管理员账户
  • 备份验证:确认备份成功完成

6. 合规与审计日志

  • - Google Sheets集成:自动记录所有检查、告警、操作
  • 审计追踪:谁在何时触发了什么操作,结果如何
  • SLA报告:月度/季度合规报告(99.9%正常运行时间证明)
  • 变更跟踪:记录所有配置变更及时间戳
  • 导出格式:CSV、JSON、PDF,用于合规提交

配置

必需的环境变量

bash

Slack通知

export SLACKWEBHOOKURL=https://hooks.slack.com/services/YOUR/WEBHOOK/URL export SLACK_CHANNEL=#incidents # 或 #alerts、#monitoring等

PagerDuty事件创建

export PAGERDUTYAPIKEY=YOURPAGERDUTYAPI_KEY export PAGERDUTYSERVICEID=YOURSERVICEID

Datadog指标采集

export DATADOGAPIKEY=YOURDATADOGAPI_KEY export DATADOGAPPKEY=YOURDATADOGAPP_KEY export DATADOG_SITE=datadoghq.com # 或 datadoghq.eu

Google Sheets日志

export GOOGLESHEETSID=YOURSPREADSHEETID export GOOGLESERVICEACCOUNT_JSON=/path/to/service-account.json

AWS自动重启(可选)

export AWSACCESSKEYID=YOURAWS_KEY export AWSSECRETACCESSKEY=YOURAWS_SECRET export AWS_REGION=us-east-1

SSH远程服务重启(可选)

export SSHPRIVATEKEY=/path/to/private/key export SSH_USER=deploy

配置文件格式(YAML)

yaml

monitors.yaml

monitors: - name: 生产API url: https://api.example.com/health interval: 300 # 秒 timeout: 10 method: GET expected_status: 200 expectedbodycontains: healthy alert_rules: critical: - slack_channel: #critical-incidents - pagerduty_severity: critical warning: - slack_channel: #alerts auto_restart: enabled: true command: systemctl restart api-service max_retries: 3 retry_delay: 60

标签

skill ai

通过对话安装

该技能支持在以下平台通过对话安装:

OpenClaw WorkBuddy QClaw Kimi Claude

方式一:安装 SkillHub 和技能

帮我安装 SkillHub 和 multi-site-health-monitor-1776069255 技能

方式二:设置 SkillHub 为优先技能安装源

设置 SkillHub 为我的优先技能安装源,然后帮我安装 multi-site-health-monitor-1776069255 技能

通过命令行安装

skillhub install multi-site-health-monitor-1776069255

下载

⬇ 下载 multi-site-health-monitor v1.0.0(免费)

文件大小: 6.04 KB | 发布时间: 2026-4-15 13:31

v1.0.0 最新 2026-4-15 13:31
Initial release of Multi-Site Health Monitor, a production-grade uptime and incident monitoring skill.

- Monitor 10–100+ websites/services with flexible health checks (HTTP(s), TCP, DNS, SSL/TLS, Ping/ICMP).
- Intelligent alert routing to Slack, PagerDuty, Datadog, Google Sheets, and more with configurable thresholds and escalation rules.
- Automatic incident response: webhook triggers, auto-restart, AWS integration, and ticket creation for detected failures.
- Performance tracking: uptime calculations, error rates, historical reports, Datadog integration, compliance & audit logging.
- WordPress-specific monitoring: plugin/theme vulnerability checks, update/status alerts, backup and user activity verification.
- Requires environment setup for Slack, PagerDuty, Datadog (and optionally AWS, SSH, Google Sheets).

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
返回顶部