BigData
A comprehensive data processing toolkit for ingesting, transforming, querying, filtering, aggregating, and managing data workflows — all from the command line with local timestamped log storage.
Commands
| Command | Description |
|---|
| INLINECODE0 | Ingest raw data into the system. Without args, shows recent ingest entries |
| INLINECODE1 |
Record a data transformation step. Without args, shows recent transforms |
|
bigdata query <input> | Log and track data queries. Without args, shows recent queries |
|
bigdata filter <input> | Apply and record data filters. Without args, shows recent filters |
|
bigdata aggregate <input> | Record aggregation operations. Without args, shows recent aggregations |
|
bigdata visualize <input> | Log visualization tasks. Without args, shows recent visualizations |
|
bigdata export <input> | Log export operations. Without args, shows recent exports |
|
bigdata sample <input> | Record data sampling operations. Without args, shows recent samples |
|
bigdata schema <input> | Track schema definitions and changes. Without args, shows recent schemas |
|
bigdata validate <input> | Log data validation checks. Without args, shows recent validations |
|
bigdata pipeline <input> | Record pipeline configurations. Without args, shows recent pipelines |
|
bigdata profile <input> | Log data profiling operations. Without args, shows recent profiles |
|
bigdata stats | Show summary statistics across all entry types |
|
bigdata search <term> | Search across all log entries for a keyword |
|
bigdata recent | Show the 20 most recent activity entries from the history log |
|
bigdata status | Health check — version, data dir, total entries, disk usage, last activity |
|
bigdata help | Show all available commands |
|
bigdata version | Print version (v2.0.0) |
Each data command (ingest, transform, query, etc.) works the same way:
- - With arguments: saves the entry with a timestamp to its dedicated
.log file and records it in the activity history - Without arguments: displays the 20 most recent entries from that command's log
Data Storage
All data is stored locally in plain-text log files:
CODEBLOCK0
Each entry is stored as YYYY-MM-DD HH:MM|<value> for easy parsing and export.
Requirements
- - Bash 4.0+ (uses
set -euo pipefail) - Standard UNIX utilities:
date, wc, du, grep, head, tail, INLINECODE27 - No external dependencies or API keys required
- Works offline — all data stays on your machine
When to Use
- 1. Data pipeline tracking — Record each step of a multi-stage data workflow (ingest → transform → validate → export) with full timestamps for audit trails
- Quick data logging — Capture observations, measurements, or notes about datasets directly from the terminal without opening a separate app
- Schema management — Keep track of schema definitions, changes, and validation rules as your data evolves over time
- Data quality monitoring — Log validation checks and profiling results to build a history of data quality metrics
- Workflow documentation — Use search and recent commands to review what data operations were performed, when, and in what order
Examples
Log a complete data workflow
CODEBLOCK1
Search and review activity
CODEBLOCK2
Pipeline and profiling
CODEBLOCK3
Filter and query tracking
CODEBLOCK4
Output
All commands print confirmation to stdout. Data is persisted in ~/.local/share/bigdata/. Use bigdata stats for a summary or bigdata search <term> to find specific entries across all logs.
Powered by BytesAgain | bytesagain.com | hello@bytesagain.com
BigData
一个全面的数据处理工具包,用于数据摄取、转换、查询、过滤、聚合及管理工作流——全部通过命令行完成,并附带本地时间戳日志存储。
命令
| 命令 | 描述 |
|---|
| bigdata ingest <输入> | 将原始数据摄取到系统中。无参数时,显示最近的摄取条目 |
| bigdata transform <输入> |
记录数据转换步骤。无参数时,显示最近的转换记录 |
| bigdata query <输入> | 记录并追踪数据查询。无参数时,显示最近的查询记录 |
| bigdata filter <输入> | 应用并记录数据过滤。无参数时,显示最近的过滤记录 |
| bigdata aggregate <输入> | 记录聚合操作。无参数时,显示最近的聚合记录 |
| bigdata visualize <输入> | 记录可视化任务。无参数时,显示最近的可视化记录 |
| bigdata export <输入> | 记录导出操作。无参数时,显示最近的导出记录 |
| bigdata sample <输入> | 记录数据采样操作。无参数时,显示最近的采样记录 |
| bigdata schema <输入> | 追踪模式定义和变更。无参数时,显示最近的模式记录 |
| bigdata validate <输入> | 记录数据验证检查。无参数时,显示最近的验证记录 |
| bigdata pipeline <输入> | 记录管道配置。无参数时,显示最近的管道记录 |
| bigdata profile <输入> | 记录数据剖析操作。无参数时,显示最近的剖析记录 |
| bigdata stats | 显示所有条目类型的汇总统计 |
| bigdata search <关键词> | 在所有日志条目中搜索关键词 |
| bigdata recent | 显示历史日志中最近的20条活动条目 |
| bigdata status | 健康检查——版本、数据目录、总条目数、磁盘使用量、最后活动时间 |
| bigdata help | 显示所有可用命令 |
| bigdata version | 打印版本号(v2.0.0) |
每个数据命令(ingest、transform、query等)的工作方式相同:
- - 带参数时:将条目连同时间戳保存到其专用的.log文件中,并记录到活动历史中
- 无参数时:显示该命令日志中最近的20条条目
数据存储
所有数据均以纯文本日志文件形式存储在本地:
~/.local/share/bigdata/
├── ingest.log # 已摄取的数据条目
├── transform.log # 转换记录
├── query.log # 查询日志
├── filter.log # 过滤操作
├── aggregate.log # 聚合记录
├── visualize.log # 可视化任务
├── export.log # 导出操作
├── sample.log # 采样记录
├── schema.log # 模式定义
├── validate.log # 验证检查
├── pipeline.log # 管道配置
├── profile.log # 剖析结果
└── history.log # 统一活动日志(含时间戳)
每条条目存储格式为YYYY-MM-DD HH:MM|<值>,便于解析和导出。
系统要求
- - Bash 4.0+(使用set -euo pipefail)
- 标准UNIX工具:date、wc、du、grep、head、tail、cat
- 无需外部依赖或API密钥
- 可离线工作——所有数据保留在您的机器上
适用场景
- 1. 数据管道追踪 — 记录多阶段数据工作流的每一步(摄取→转换→验证→导出),附带完整时间戳用于审计追踪
- 快速数据记录 — 直接从终端捕获关于数据集的观察结果、测量值或备注,无需打开单独的应用
- 模式管理 — 随着数据随时间演变,追踪模式定义、变更和验证规则
- 数据质量监控 — 记录验证检查和剖析结果,构建数据质量指标的历史记录
- 工作流文档 — 使用搜索和最近命令功能,回顾执行了哪些数据操作、何时执行以及执行顺序
示例
记录完整的数据工作流
bash
摄取原始数据
bigdata ingest customer
orders2024.csv — 已加载120万行
转换数据
bigdata transform 将日期标准化为ISO-8601格式,去除空白,去重
验证输出
bigdata validate 所有必填字段存在,customer_id字段无空值
记录模式
bigdata schema orders: id(int), customer_id(int), amount(decimal), date(date)
准备就绪后导出
bigdata export 最终数据集已推送至分析仓库
搜索和回顾活动
bash
在所有日志中搜索关键词
bigdata search customer
查看总体统计信息
bigdata stats
查看所有命令的最近活动
bigdata recent
健康检查
bigdata status
管道和剖析
bash
定义管道
bigdata pipeline 每日ETL:摄取→清洗→验证→加载 — 于UTC时间02:00运行
剖析数据集
bigdata profile 用户表:50万行,12列,email字段空值率0.3%
采样数据用于测试
bigdata sample 从交易数据中随机抽取10%样本用于QA测试
记录聚合操作
bigdata aggregate 按区域的月度收入 — 已完成第一季度总计计算
过滤和查询追踪
bash
记录过滤操作
bigdata filter 移除了2020-01-01之前的记录,从120万行中保留85万行
追踪查询
bigdata query SELECT region, SUM(revenue) FROM orders GROUP BY region
记录可视化
bigdata visualize 柱状图:月度收入趋势,已导出为PNG格式
输出
所有命令均向标准输出打印确认信息。数据持久化存储在~/.local/share/bigdata/目录中。使用bigdata stats查看汇总信息,或使用bigdata search <关键词>在所有日志中查找特定条目。
由BytesAgain提供技术支持 | bytesagain.com | hello@bytesagain.com