CSV Analyzer
Analyze CSV files with simple commands. Get instant statistics, filter data, detect anomalies, and export results — all without pandas or heavy dependencies.
Usage
Quick stats
python3 {baseDir}/scripts/csv_analyze.py stats data.csv
Shows row count, column types, min/max/mean for numeric columns, unique counts for text columns.
Filter rows
CODEBLOCK1
Top/Bottom N
CODEBLOCK2
Detect anomalies (values outside 2σ)
CODEBLOCK3
Group and aggregate
CODEBLOCK4
Features
- - 📊 Automatic column type detection (numeric, date, text)
- 🔍 Flexible filtering with comparison operators
- 📈 Statistical summary (mean, median, std, min, max, percentiles)
- 🚨 Anomaly detection (z-score based)
- 📋 Grouping and aggregation
- 💾 Export filtered/processed results
- 🪶 Zero external dependencies — Python stdlib only (csv module)
Dependencies
None! Uses only Python standard library.
Why Not Pandas?
Pandas is great but:
- - Takes 100MB+ RAM just to import
- Overkill for quick analysis tasks
- This skill runs on 2GB RAM servers without issues
- For truly large datasets, the agent can recommend installing pandas
Limitations
- - Designed for files up to ~100MB (loads into memory)
- For larger files, use streaming mode or install pandas
- Date parsing is basic (ISO format preferred)
CSV 分析器
通过简单命令分析 CSV 文件。即时获取统计数据、筛选数据、检测异常并导出结果——无需 pandas 或繁重依赖。
使用方法
快速统计
bash
python3 {baseDir}/scripts/csv_analyze.py stats data.csv
显示行数、列类型、数值列的最小值/最大值/平均值、文本列的唯一值数量。
筛选行
bash
python3 {baseDir}/scripts/csv
analyze.py filter data.csv --where amount>1000 --output bigorders.csv
前 N 名/后 N 名
bash
python3 {baseDir}/scripts/csv_analyze.py top data.csv --column revenue --n 10
python3 {baseDir}/scripts/csv_analyze.py bottom data.csv --column revenue --n 5
检测异常(超出 2σ 的值)
bash
python3 {baseDir}/scripts/csv_analyze.py anomalies data.csv --column price
分组与聚合
bash
python3 {baseDir}/scripts/csv_analyze.py group data.csv --by category --agg sum:amount count:id
功能特性
- - 📊 自动列类型检测(数值、日期、文本)
- 🔍 支持比较运算符的灵活筛选
- 📈 统计摘要(均值、中位数、标准差、最小值、最大值、百分位数)
- 🚨 异常检测(基于 z-score)
- 📋 分组与聚合
- 💾 导出筛选/处理后的结果
- 🪶 零外部依赖 — 仅使用 Python 标准库(csv 模块)
依赖项
无!仅使用 Python 标准库。
为何不用 Pandas?
Pandas 虽好,但存在以下问题:
- - 仅导入就需要 100MB+ 内存
- 对于快速分析任务过于臃肿
- 本技能可在 2GB 内存服务器上无问题运行
- 对于真正的大数据集,代理可建议安装 pandas
局限性
- - 设计用于约 100MB 以内的文件(加载到内存)
- 对于更大文件,请使用流式模式或安装 pandas
- 日期解析较为基础(推荐使用 ISO 格式)