返回顶部
e

etlETL管道构建

Build ETL pipelines with data ingestion, cleaning, and validation steps. Use when ingesting sources, transforming formats, validating data, or scheduling loads.

作者: admin | 来源: ClawHub
源自
ClawHub
版本
V 2.0.1
安全检测
已通过
335
下载量
免费
免费
0
收藏
概述
安装方式
版本历史

etl

ETL

提取-转换-加载数据工具包(v2.0.0)。记录并管理整个ETL生命周期中的数据管道活动——包括数据摄取、转换、查询、过滤、聚合、可视化、导出、采样、模式定义、验证、管道编排和数据剖析。每条命令都会将带时间戳的条目记录到其专属日志文件中,为您提供所有数据操作的结构化记录。

命令

命令描述
etl ingest <input>记录数据摄取事件(来源、格式、行数等)。无参数时显示最近的摄取条目。
etl transform <input>
记录转换步骤(列重命名、类型转换、标准化等)。无参数时显示最近的转换记录。 | | etl query | 记录查询操作或SQL语句。无参数时显示最近的查询记录。 | | etl filter | 记录应用于数据的过滤规则或条件。无参数时显示最近的过滤记录。 | | etl aggregate | 记录聚合步骤(GROUP BY、SUM、AVG等)。无参数时显示最近的聚合记录。 | | etl visualize | 记录可视化请求或图表配置。无参数时显示最近的可视化记录。 | | etl export | 记录导出操作(目标位置、格式、行数)。无参数时显示最近的导出记录。 | | etl sample | 记录数据采样步骤(样本大小、方法、种子值)。无参数时显示最近的采样记录。 | | etl schema | 记录模式定义或模式变更。无参数时显示最近的模式条目。 | | etl validate | 记录数据验证规则或结果。无参数时显示最近的验证记录。 | | etl pipeline | 记录管道配置或执行步骤。无参数时显示最近的管道条目。 | | etl profile | 记录数据剖析结果(空值计数、分布情况、异常值)。无参数时显示最近的剖析记录。 | | etl stats | 显示汇总统计信息:各类别条目数量、总条目数、数据大小及最早记录日期。 | | etl export | 将所有记录数据导出到文件。支持的格式:json、csv、txt。(注意:此功能与export日志命令的代码路径不同——它导出的是工具自身的数据。) | | etl search | 在所有日志文件中搜索关键词(不区分大小写)。 | | etl recent | 显示活动历史日志中最近的20条条目。 | | etl status | 健康检查:版本、数据目录、总条目数、磁盘使用情况、最近活动时间。 | | etl help | 显示包含所有可用命令的内置帮助信息。 | | etl version | 打印当前版本(v2.0.0)。 |

数据存储

所有数据以纯文本日志文件形式存储在~/.local/share/etl/目录中:

  • - 按命令分类的日志 — 每条命令(ingest、transform、query等)写入其专属的.log文件(例如ingest.log、transform.log)。
  • 历史日志 — 每次操作也会附带时间戳和命令名称追加到history.log文件中。
  • 导出文件 — 在同一目录下生成export.json、export.csv或export.txt文件。

条目以timestamp|value格式存储,便于使用grep、解析或通过管道传递给下游工具。

系统要求

  • - Bash 4.0+(使用set -euo pipefail)
  • coreutils — date、wc、du、head、tail、grep、basename、cut
  • 无需外部依赖、API密钥或网络访问
  • 可在任何POSIX兼容系统上完全离线运行

适用场景

  1. 1. 记录数据管道步骤 — 为ETL流程的每个阶段(摄取→转换→验证→导出)记录带时间戳的日志,创建完整的数据迁移审计追踪。
  2. 模式管理与验证 — 使用schema记录表结构,使用validate记录数据质量规则及其通过/失败结果。
  3. 数据剖析与探索 — 使用profile记录列统计信息、空值率和分布异常;使用sample记录采样参数以确保可复现性。
  4. 管道编排跟踪 — 使用pipeline记录多步骤工作流配置、执行顺序以及ETL阶段间的依赖关系。
  5. 跨团队数据操作审查 — 运行stats查看汇总计数,使用search按关键词查找特定操作,通过export json与团队成员共享管道日志或加载到仪表板中。

示例

bash

记录从S3的数据摄取


etl ingest s3://data-lake/raw/users_2024.csv — 1.2M行,CSV格式

记录转换步骤

etl transform 将邮箱标准化为小写,将created_at转换为UTC时间戳

记录验证规则

etl validate 对user_id进行非空检查:1,200,000行中0个违规

记录新表的模式

etl schema usersdim: id INT主键, email VARCHAR(255), createdat TIMESTAMP, country CHAR(2)

定义管道

etl pipeline dailyuserload: ingest(s3) -> 去重 -> 验证 -> load(postgres)

搜索与users相关的内容

etl search users

将所有ETL日志导出为CSV进行分析

etl export csv

查看汇总统计信息

etl stats

检查系统健康状态

etl status

使用技巧

  • - 不带参数运行任何数据命令可查看最近的条目(例如etl ingest显示最近20条摄取条目)。
  • 使用etl recent快速查看所有类别的全部活动概览。
  • 结合cron自动记录管道运行:0 2 * etl pipeline nightly_load completed at $(date)
  • 通过复制~/.local/share/etl/目录到您偏好的备份位置来备份数据。

由BytesAgain提供技术支持 | bytesagain.com | hello@bytesagain.com

标签

skill ai

通过对话安装

该技能支持在以下平台通过对话安装:

OpenClaw WorkBuddy QClaw Kimi Claude

方式一:安装 SkillHub 和技能

帮我安装 SkillHub 和 etl-1776080778 技能

方式二:设置 SkillHub 为优先技能安装源

设置 SkillHub 为我的优先技能安装源,然后帮我安装 etl-1776080778 技能

通过命令行安装

skillhub install etl-1776080778

下载

⬇ 下载 etl v2.0.1(免费)

文件大小: 5.16 KB | 发布时间: 2026-4-15 12:39

v2.0.1 最新 2026-4-15 12:39
update

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
返回顶部