返回顶部
b

bigdata大数据处理

Split large files, run parallel processing, and stream batch analysis. Use when sampling datasets, aggregating logs, or transforming bulk data.

作者: admin | 来源: ClawHub
源自
ClawHub
版本
V 2.0.1
安全检测
已通过
277
下载量
免费
免费
0
收藏
概述
安装方式
版本历史

bigdata

BigData

一个全面的数据处理工具包,用于数据摄取、转换、查询、过滤、聚合及管理工作流——全部通过命令行完成,并附带本地时间戳日志存储。

命令

命令描述
bigdata ingest <输入>将原始数据摄取到系统中。无参数时,显示最近的摄取条目
bigdata transform <输入>
记录数据转换步骤。无参数时,显示最近的转换记录 | | bigdata query <输入> | 记录并追踪数据查询。无参数时,显示最近的查询记录 | | bigdata filter <输入> | 应用并记录数据过滤。无参数时,显示最近的过滤记录 | | bigdata aggregate <输入> | 记录聚合操作。无参数时,显示最近的聚合记录 | | bigdata visualize <输入> | 记录可视化任务。无参数时,显示最近的可视化记录 | | bigdata export <输入> | 记录导出操作。无参数时,显示最近的导出记录 | | bigdata sample <输入> | 记录数据采样操作。无参数时,显示最近的采样记录 | | bigdata schema <输入> | 追踪模式定义和变更。无参数时,显示最近的模式记录 | | bigdata validate <输入> | 记录数据验证检查。无参数时,显示最近的验证记录 | | bigdata pipeline <输入> | 记录管道配置。无参数时,显示最近的管道记录 | | bigdata profile <输入> | 记录数据剖析操作。无参数时,显示最近的剖析记录 | | bigdata stats | 显示所有条目类型的汇总统计 | | bigdata search <关键词> | 在所有日志条目中搜索关键词 | | bigdata recent | 显示历史日志中最近的20条活动条目 | | bigdata status | 健康检查——版本、数据目录、总条目数、磁盘使用量、最后活动时间 | | bigdata help | 显示所有可用命令 | | bigdata version | 打印版本号(v2.0.0) |

每个数据命令(ingest、transform、query等)的工作方式相同:

  • - 带参数时:将条目连同时间戳保存到其专用的.log文件中,并记录到活动历史中
  • 无参数时:显示该命令日志中最近的20条条目

数据存储

所有数据均以纯文本日志文件形式存储在本地:

~/.local/share/bigdata/
├── ingest.log # 已摄取的数据条目
├── transform.log # 转换记录
├── query.log # 查询日志
├── filter.log # 过滤操作
├── aggregate.log # 聚合记录
├── visualize.log # 可视化任务
├── export.log # 导出操作
├── sample.log # 采样记录
├── schema.log # 模式定义
├── validate.log # 验证检查
├── pipeline.log # 管道配置
├── profile.log # 剖析结果
└── history.log # 统一活动日志(含时间戳)

每条条目存储格式为YYYY-MM-DD HH:MM|<值>,便于解析和导出。

系统要求

  • - Bash 4.0+(使用set -euo pipefail)
  • 标准UNIX工具:date、wc、du、grep、head、tail、cat
  • 无需外部依赖或API密钥
  • 可离线工作——所有数据保留在您的机器上

适用场景

  1. 1. 数据管道追踪 — 记录多阶段数据工作流的每一步(摄取→转换→验证→导出),附带完整时间戳用于审计追踪
  2. 快速数据记录 — 直接从终端捕获关于数据集的观察结果、测量值或备注,无需打开单独的应用
  3. 模式管理 — 随着数据随时间演变,追踪模式定义、变更和验证规则
  4. 数据质量监控 — 记录验证检查和剖析结果,构建数据质量指标的历史记录
  5. 工作流文档 — 使用搜索和最近命令功能,回顾执行了哪些数据操作、何时执行以及执行顺序

示例

记录完整的数据工作流

bash

摄取原始数据


bigdata ingest customerorders2024.csv — 已加载120万行

转换数据

bigdata transform 将日期标准化为ISO-8601格式,去除空白,去重

验证输出

bigdata validate 所有必填字段存在,customer_id字段无空值

记录模式

bigdata schema orders: id(int), customer_id(int), amount(decimal), date(date)

准备就绪后导出

bigdata export 最终数据集已推送至分析仓库

搜索和回顾活动

bash

在所有日志中搜索关键词


bigdata search customer

查看总体统计信息

bigdata stats

查看所有命令的最近活动

bigdata recent

健康检查

bigdata status

管道和剖析

bash

定义管道


bigdata pipeline 每日ETL:摄取→清洗→验证→加载 — 于UTC时间02:00运行

剖析数据集

bigdata profile 用户表:50万行,12列,email字段空值率0.3%

采样数据用于测试

bigdata sample 从交易数据中随机抽取10%样本用于QA测试

记录聚合操作

bigdata aggregate 按区域的月度收入 — 已完成第一季度总计计算

过滤和查询追踪

bash

记录过滤操作


bigdata filter 移除了2020-01-01之前的记录,从120万行中保留85万行

追踪查询

bigdata query SELECT region, SUM(revenue) FROM orders GROUP BY region

记录可视化

bigdata visualize 柱状图:月度收入趋势,已导出为PNG格式

输出

所有命令均向标准输出打印确认信息。数据持久化存储在~/.local/share/bigdata/目录中。使用bigdata stats查看汇总信息,或使用bigdata search <关键词>在所有日志中查找特定条目。



由BytesAgain提供技术支持 | bytesagain.com | hello@bytesagain.com

标签

skill ai

通过对话安装

该技能支持在以下平台通过对话安装:

OpenClaw WorkBuddy QClaw Kimi Claude

方式一:安装 SkillHub 和技能

帮我安装 SkillHub 和 bigdata-1776080722 技能

方式二:设置 SkillHub 为优先技能安装源

设置 SkillHub 为我的优先技能安装源,然后帮我安装 bigdata-1776080722 技能

通过命令行安装

skillhub install bigdata-1776080722

下载

⬇ 下载 bigdata v2.0.1(免费)

文件大小: 5.12 KB | 发布时间: 2026-4-15 11:52

v2.0.1 最新 2026-4-15 11:52
update

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
返回顶部