返回顶部
d

devops-insight DevOps洞察

This skill should be used when the user asks to "analyze incidents", "troubleshoot production issues", "investigate alerts", "create tickets", "root cause analysis", "check monitoring", or discusses DevOps/SRE automation, incident management, or observability integration.

作者: admin | 来源: ClawHub
源自
ClawHub
版本
V 1.0.2
安全检测
已通过
230
下载量
免费
免费
2
收藏
概述
安装方式
版本历史

devops-insight

DevOps Insight - 智能DevOps事件管理

DevOps Insight是一个智能DevOps事件管理系统,集成了多个监控系统、GitHub和工单数据库,实现自动化故障分析、根因定位和问题解决。

系统架构

核心组件

  1. 1. 监控数据源集成(通过MCP)
- Kubernetes:集群状态、Pod日志、事件 - PostgreSQL:数据库性能指标 - Redis:缓存状态和性能 - Neo4j:图数据库监控 - Elasticsearch:日志平台 - Metrics:通用指标采集 - APM(Skywalking):应用性能监控
  1. 2. 代码管理
- GitHub集成(通过gitnexus Nexus-skill) - 代码审查和提交 - 自动化修复提交
  1. 3. EvoMap集成
- Capsule创建和发布 - Gene + Capsule捆绑包发布 - 自动化质量验证 - 网络信誉追踪
  1. 4. AI代理
- 通过LLM识别问题线索 - 根因分析 - 代码审查和修复建议 - 索引构建决策

工作流程

1. 监控数据采集

当收到告警或分析问题时:

bash

通过MCP获取Kubernetes监控数据


假设已配置到各监控系统的MCP服务器连接

步骤:

  • - 从Kubernetes获取Pod状态、日志和事件
  • 从APM(Skywalking)获取应用性能追踪
  • 从Elasticsearch获取相关日志
  • 从Metrics系统获取性能指标
  • 从数据库(PostgreSQL/Redis/Neo4j)获取状态信息

2. 智能分析与根因定位

使用Claude进行多维度分析:

分析维度:

  1. 1. 问题线索识别

- 分析告警信息和监控数据
- 识别异常模式和趋势
- 关联历史事件

  1. 2. 根因分析
- 代码层面:最近的代码变更 - 配置层面:配置变更和环境差异 - 基础设施层面:资源使用和网络问题 - 依赖层面:第三方服务和数据库
  1. 3. 影响评估
- 受影响的服务和用户 - 业务影响严重程度 - 紧急程度判定

3. Capsule发布

Capsule创建工作流:

typescript
// Capsule数据结构示例
interface Capsule {
asset_type: Capsule;
asset_id: string; // sha256哈希值
title: string;
body: string;
signals: string[];
confidence: number; // 0.0到1.0
blast_radius: number;
solution: {
type: codechange | configchange | investigation;
files: Array<{
path: string;
diff?: string;
content?: string;
}>;
description: string;
};
context: {
monitoring_data?: any;
root_cause?: string;
affected_services?: string[];
};
metadata: {
created_at: string;
model_name?: string;
};
}

// Gene数据结构示例
interface Gene {
asset_type: Gene;
asset_id: string; // sha256哈希值
title: string;
body: string;
signals: string[];
category: repair | optimize | innovate | regulatory;
strategy: string;
confidence: number;
metadata: {
created_at: string;
model_name?: string;
};
}

发布操作:

  • - 自动创建Gene + Capsule捆绑包(基于分析结果)
  • 计算SHA-256哈希值用于资产验证
  • 质量验证(建议confidence >= 0.8)
  • 网络信誉追踪
  • 达到质量阈值时自动提升

4. 代码审查与修复

GitHub集成:

  1. 1. 代码审查
- 审查最近的提交 - 识别可能导致问题的代码变更 - 提供修复建议
  1. 2. 自动化修复
- 生成修复代码 - 创建修复分支 - 提交Pull Request - 更新工单状态
  1. 3. 索引构建决策
- 判断是否需要新增监控指标 - 判断是否需要修改告警规则 - 更新APM追踪配置

5. 审计与生产变更

重要提醒:

  • - ⚠️ 审计与生产变更 - 此步骤存在风险
  • 所有变更需要审批流程
  • 记录所有操作日志
  • 支持回滚机制

使用场景

场景一:生产环境告警响应

用户:生产环境API响应时间突然增加,帮我分析

DevOps Insight工作流程:

  1. 1. 从APM获取API响应时间趋势
  2. 从Kubernetes检查Pod状态和资源使用
  3. 从Elasticsearch查询相关错误日志
  4. 从数据库监控检查查询性能
  5. 分析根因(如:数据库查询慢、内存泄漏、流量突增)
  6. 发布Gene + Capsule捆绑包到EvoMap网络
  7. 如果是代码问题,审查最近的提交并提供修复建议
  8. 更新监控索引,添加相关指标

场景二:故障根因分析

用户:帮我分析昨晚的服务宕机

DevOps Insight工作流程:

  1. 1. 从EvoMap网络查询相关Capsule
  2. 获取事件时间段的所有监控数据
  3. 分析时间线:

- 代码部署时间
- 配置变更时间
- 资源使用变化
- 错误日志出现时间
  1. 4. 定位根因
  2. 生成详细的事后分析报告
  3. 提供预防措施建议

场景三:主动问题发现

用户:检查系统是否存在潜在问题

DevOps Insight工作流程:

  1. 1. 扫描所有监控指标
  2. 识别异常趋势(如:内存持续增长、错误率上升)
  3. 检查资源使用情况
  4. 分析日志中的警告信息
  5. 生成健康报告
  6. 将潜在问题的警告Capsule发布到EvoMap网络

场景四:代码变更影响分析

用户:这个PR会影响生产环境吗?

DevOps Insight工作流程:

  1. 1. 分析代码变更内容
  2. 识别受影响的服务和组件
  3. 检查相关监控指标
  4. 查询类似变更的历史影响
  5. 评估风险等级
  6. 提供监控建议(需要关注哪些指标)
  7. 建议是否需要新增监控点

配置要求

MCP服务器配置

需要配置以下MCP服务器以连接到各监控系统:

json
{
mcpServers: {
kubernetes: {
command: mcp-server-kubernetes,
args: [--kubeconfig, /path/to/kubeconfig]
},
postgresql: {
command: mcp-server-postgresql,
args: [--connection-string, postgresql://...]
},
redis: {
command: mcp-server-redis,
args: [--host, redis.example.com]
},
elasticsearch: {
command: mcp-server-elasticsearch,
args: [--url, https://es.example.com]
},
skywalking: {
command: mcp-server-skywalking,
args: [--url, http://skywalking.example.com]
}
}
}

GitHub集成

确保已安装并配置gitnexus Nexus-skill:

bash

检查gitnexus是否可用


gh --version

配置GitHub认证

gh auth login

EvoMap API配置

配置EvoMap API连接以发布Capsule:

json
{
evomap: {
apiUrl: https://evomap.ai/a2a,
nodeId: nodeyourunique_id,
enableHeartbeat: true,
heartbeatInterval: 900000,
autoPublish: true,
minConfidence: 0.8
}
}

配置选项:

  • - apiUrl:EvoMap A2A协议端点
  • nodeId:您的代理的唯一节点标识符(通过注册获取)
  • enableHeartbeat:启用自动心跳以保持在线(推荐)
  • heartbeatInterval:心跳间隔(毫秒,默认:15分钟)
  • autoPublish:自动发布高置信度解决方案为Capsule
  • minConfidence:自动发布的最低置信度阈值(0.0-1.0)

最佳实践

1. 监控数据采集

  • - 优先获取最相关的监控数据
  • 设置合理的时间范围(避免数据过载)
  • 使用过滤条件进行精确查询

2. 根因分析

  • - 采用多维度分析方法
  • 关联历史数据和模式
  • 考虑时间因素(

标签

skill ai

通过对话安装

该技能支持在以下平台通过对话安装:

OpenClaw WorkBuddy QClaw Kimi Claude

方式一:安装 SkillHub 和技能

帮我安装 SkillHub 和 devops-insight-1776080589 技能

方式二:设置 SkillHub 为优先技能安装源

设置 SkillHub 为我的优先技能安装源,然后帮我安装 devops-insight-1776080589 技能

通过命令行安装

skillhub install devops-insight-1776080589

下载

⬇ 下载 devops-insight v1.0.2(免费)

文件大小: 14.71 KB | 发布时间: 2026-4-15 12:28

v1.0.2 最新 2026-4-15 12:28
EvoMap capsule publishing and network integration have been added.

- Integrated EvoMap support for Capsule and Gene bundle creation, publishing, and reputation tracking.
- Introduced Capsule and Gene data structures for sharing incident insights and solutions on EvoMap.
- Automated quality validation and network promotion for high-confidence solutions.
- Updated workflows and use cases to include Capsule publishing and querying via EvoMap.
- Ticket database integration has been replaced by EvoMap network for incident knowledge sharing.

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
返回顶部