返回顶部
p

pandas-skill Pandas数据处理

Expert pandas skill for data manipulation, cleaning, analysis, and transformation. Use this skill when working with tabular data, CSV/Excel files, data analysis tasks, or any data processing workflow that involves pandas DataFrames. Provides executable scripts for common operations and comprehensive reference documentation.

作者: admin | 来源: ClawHub
源自
ClawHub
版本
V 1.0.0
安全检测
已通过
1,018
下载量
免费
免费
0
收藏
概述
安装方式
版本历史

pandas-skill

Pandas 数据处理技能

本技能通过可执行脚本和参考文档提供全面的 pandas 数据处理能力。当任务涉及表格数据的操作、清洗、分析或转换时,请使用本技能。

何时使用本技能

当用户提出以下请求时,激活本技能:

  • - 数据清洗操作(处理缺失值、重复值、异常值)
  • 数据分析和统计汇总
  • 格式转换(CSV ↔ Excel ↔ JSON ↔ Parquet)
  • 数据转换(筛选、排序、聚合、透视)
  • 合并或组合多个数据集
  • 生成数据质量报告
  • 任何 pandas DataFrame 操作

核心能力

1. 数据清洗 (scripts/data_cleaner.py)

通过单个命令处理常见的数据清洗任务:

使用方法:
bash
python scripts/data_cleaner.py input.csv output.csv [选项]

可用选项:

  • - --remove-duplicates:删除重复行
  • --handle-missing [策略]:处理缺失值

- 策略:drop(删除)、fill(填充)、forward(前向填充)、backward(后向填充)、mean(均值)、median(中位数)
  • - --fill-value [值]:缺失数据的自定义填充值
  • --remove-outliers:使用 IQR 或 Z-score 方法删除异常值
  • --outlier-method [方法]:选择 iqr 或 zscore(默认:iqr)
  • --standardize-columns:标准化列名(小写、下划线)

示例:
bash
python scripts/datacleaner.py data.csv cleaneddata.csv \
--remove-duplicates \
--handle-missing mean \
--remove-outliers \
--standardize-columns

2. 数据分析 (scripts/data_analyzer.py)

生成全面的数据分析报告:

使用方法:
bash
python scripts/data_analyzer.py input.csv [选项]

可用选项:

  • - --output, -o [文件]:将报告保存到文件
  • --format [格式]:输出格式(json 或 text,默认:json)

报告包含:

  • - 基本信息(行数、列数、内存使用)
  • 数据类型分布
  • 缺失值分析
  • 数值列统计(均值、标准差、最小值、最大值、四分位数、偏度、峰度)
  • 分类列统计(唯一值、值计数)
  • 相关性分析
  • 异常值检测

示例:
bash
python scripts/dataanalyzer.py salesdata.csv -o report.json --format json

3. 数据转换 (scripts/data_transformer.py)

通过子命令执行各种数据转换操作:

格式转换

bash python scripts/data_transformer.py convert input.csv output.xlsx

支持:CSV、Excel (.xlsx/.xls)、JSON、Parquet、HTML

合并文件

bash python scripts/data_transformer.py merge file1.csv file2.csv file3.csv \ --output merged.csv \ --how outer \ --on key_column

筛选数据

bash python scripts/data_transformer.py filter data.csv \ --query age > 18 and city == Beijing \ --output filtered.csv

排序数据

bash python scripts/data_transformer.py sort data.csv \ --by sales quantity \ --descending \ --output sorted.csv

选择列

bash python scripts/data_transformer.py select data.csv \ --columns name age city \ --output selected.csv

参考文档

references/ 目录包含详细文档:

references/common_operations.md

全面的参考文档,涵盖:

  • - 数据读取/保存(CSV、Excel、JSON、SQL、Parquet)
  • 数据探索(head、info、describe、dtypes)
  • 数据选择和筛选(loc、iloc、布尔索引、query)
  • 数据清洗(处理缺失/重复值、类型转换)
  • 数据转换(apply、map、排序、列操作)
  • Groupby 和聚合操作
  • 数据透视表
  • 合并和连接(concat、merge、join)
  • 时间序列操作
  • 字符串操作
  • 性能优化技巧

何时使用: 当 Claude 需要理解 pandas 语法或为特定操作找到正确方法时。

references/datacleaningbest_practices.md

最佳实践指南,涵盖:

  • - 数据质量检查清单
  • 带决策树的缺失值处理策略
  • 异常值检测方法(IQR、Z-Score、百分位数)
  • 数据类型优化以提高内存效率
  • 字符串清洗技术
  • 日期/时间标准化
  • 完整清洗流程模板
  • 常见问题及解决方案
  • 数据验证方法

何时使用: 当设计数据清洗工作流或决定特定数据质量问题的最佳方法时。

工作流程指南

步骤 1:初步评估

始终从分析数据开始: bash python scripts/dataanalyzer.py inputfile.csv -o analysis_report.json

审查报告以了解数据质量、类型、缺失值和潜在问题。

步骤 2:规划清洗策略

基于分析报告:
  • - 确定缺失值策略(参考:datacleaningbest_practices.md)
  • 判断是否需要删除重复值
  • 决定异常值处理方法
  • 规划必要的类型转换

步骤 3:执行清洗

使用适当的选项运行数据清洗器: bash python scripts/data_cleaner.py input.csv cleaned.csv [选项]

步骤 4:按需转换

应用任何转换(筛选、排序、格式转换、合并): bash python scripts/data_transformer.py [子命令] [选项]

步骤 5:验证结果

对清洗后的数据重新运行分析以验证改进: bash python scripts/dataanalyzer.py cleaned.csv -o finalreport.json

常见模式

模式 1:快速数据质量报告

bash python scripts/data_analyzer.py data.csv --format text

模式 2:标准清洗流程

bash python scripts/datacleaner.py rawdata.csv clean_data.csv \ --standardize-columns \ --remove-duplicates \ --handle-missing median \ --remove-outliers

模式 3:Excel 转 CSV 并筛选

bash

转换

python scripts/data_transformer.py convert data.xlsx data.csv

筛选

python scripts/data_transformer.py filter data.csv \ --query status == active \ --output filtered.csv

模式 4:合并多个 CSV

bash python scripts/data_transformer.py merge *.csv \ --output combined.csv

依赖项

确保已安装 pandas:
bash
pip install pandas numpy openpyxl

特定格式的可选依赖:
bash
pip install pyarrow # 支持 Parquet
pip install xlrd # 支持旧版 Excel 文件 (.xls)

有效使用技巧

  1. 1. 从分析开始: 始终先运行分析器以了解数据
  2. 增量清洗: 逐步应用清洗操作,验证每一步
  3. 保留原始文件: 切勿覆盖原始数据文件
  4. 查阅参考文档: 对于复杂操作或最佳实践,查阅参考文档
  5. 验证结果: 使用分析器验证清洗效果
  6. 内存效率: 对于大文件,考虑使用参考文档中的数据类型优化技术
  7. 组合操作: 对于复杂工作流,串联多个转换器命令

局限性

  • - 脚本受单机内存限制(对于非常大的数据集,考虑使用 Dask)
  • 时间序列重采样和滚动操作需要自定义 pandas 代码
  • 超出基本描述性统计的复杂统计建模需要额外库
  • 对于高级可视化,直接使用 matplotlib/seaborn

故障排除

导入错误: 确保已安装 pandas 和依赖项
内存错误: 分块处理数据或优化数据类型(参见参考文档)
编码问题: 加载 CSV 时添加 encoding=utf-8 参数
日期解析问题: 使用带显式格式字符串的 pd.to_datetime()

有关详细的 pandas 操作和故障排除,请始终参考 references/commonoperations.md 和 references/datacleaningbestpractices.md。

标签

skill ai

通过对话安装

该技能支持在以下平台通过对话安装:

OpenClaw WorkBuddy QClaw Kimi Claude

方式一:安装 SkillHub 和技能

帮我安装 SkillHub 和 pandas-skill-1776181264 技能

方式二:设置 SkillHub 为优先技能安装源

设置 SkillHub 为我的优先技能安装源,然后帮我安装 pandas-skill-1776181264 技能

通过命令行安装

skillhub install pandas-skill-1776181264

下载

⬇ 下载 pandas-skill v1.0.0(免费)

文件大小: 29.46 KB | 发布时间: 2026-4-15 12:01

v1.0.0 最新 2026-4-15 12:01
pandas-skill 1.0.0

- Initial release providing expert scripts and documentation for pandas-based data manipulation, cleaning, analysis, and transformation.
- Includes command-line scripts for data cleaning (missing values, duplicates, outliers), analysis (summary reports), and transformation (conversion, merging, filtering).
- Adds comprehensive reference documentation for common pandas operations and data cleaning best practices.
- Outlines recommended workflows and common usage patterns.
- Lists required and optional dependencies for full functionality.

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
返回顶部