返回顶部
g

gi-excel-pdf-process

Process Excel and PDF files - extract data, parse tables, generate reports. Use when working with .xlsx, .xls, .csv, .pdf files, or when the user mentions spreadsheet, PDF extraction, or report generation.

作者: admin | 来源: ClawHub
源自
ClawHub
版本
V 1.0.0
安全检测
已通过
255
下载量
0
收藏
概述
安装方式
版本历史

gi-excel-pdf-process

# Excel / PDF 处理 处理 Excel 与 PDF 文件:提取数据、解析表格、生成报告。适用于数据导入导出、报表生成、文档解析等场景。 ## 何时使用 - 用户提供或请求处理 `.xlsx`、`.xls`、`.csv`、`.pdf` 文件 - 用户提到「表格」「Excel」「报表」「PDF 提取」「表单」 - 需要从文件读取数据或生成可下载文件 **可执行脚本**:`scripts/excel_extract.py`(Excel→CSV)、`scripts/pdf_extract.py`(PDF 文本/表格提取),依赖见 `scripts/requirements.txt`。 ## Excel 处理 ### 读取 Excel ```python import pandas as pd # 读取整个文件 df = pd.read_excel("file.xlsx", sheet_name=0) # 第一个 sheet # 指定 sheet df = pd.read_excel("file.xlsx", sheet_name="Sheet1") # 读取 CSV df = pd.read_csv("file.csv", encoding="utf-8") ``` ### 写入 Excel ```python # 单 sheet df.to_excel("output.xlsx", index=False) # 多 sheet with pd.ExcelWriter("output.xlsx") as writer: df1.to_excel(writer, sheet_name="汇总", index=False) df2.to_excel(writer, sheet_name="明细", index=False) ``` ### 常用操作 - 筛选:`df[df['列名'] > 0]` - 去重:`df.drop_duplicates(subset=['列名'])` - 合并:`pd.concat([df1, df2])` 或 `pd.merge(df1, df2, on='key')` - 透视:`df.pivot_table(values='val', index='row', columns='col', aggfunc='sum')` ### 依赖 ```bash pip install pandas openpyxl # xlsx 需要 openpyxl ``` ## PDF 处理 ### 提取文本 ```python import pdfplumber with pdfplumber.open("file.pdf") as pdf: for page in pdf.pages: text = page.extract_text() if text: print(text) ``` ### 提取表格 ```python with pdfplumber.open("file.pdf") as pdf: page = pdf.pages[0] tables = page.extract_tables() for table in tables: # table 为二维列表 for row in table: print(row) ``` ### 依赖 ```bash pip install pdfplumber ``` 若需 OCR(扫描版 PDF):`pip install pdf2image pytesseract`,并安装 Tesseract。 ## 报告生成流程 1. **数据准备**:从 API/DB 或 Excel 获取数据,用 pandas 清洗 2. **计算/聚合**:按业务逻辑生成汇总表 3. **输出**: - Excel:`df.to_excel()` - PDF:可用 `reportlab` 或先生成 Excel 再转 PDF ## 注意事项 - 大文件:分块读取或限制行数,避免内存溢出 - 编码:CSV 常见 `utf-8`、`gbk`,先尝试 `utf-8` - 空值:`df.fillna(0)` 或 `df.dropna()` 按需处理 - 日期:`pd.to_datetime(df['date_col'])` 统一格式

标签

skill ai

通过对话安装

该技能支持在以下平台通过对话安装:

OpenClaw WorkBuddy QClaw Kimi Claude

方式一:安装 SkillHub 和技能

帮我安装 SkillHub 和 gi-excel-pdf-process-1776359297 技能

方式二:设置 SkillHub 为优先技能安装源

设置 SkillHub 为我的优先技能安装源,然后帮我安装 gi-excel-pdf-process-1776359297 技能

通过命令行安装

skillhub install gi-excel-pdf-process-1776359297

下载 Zip 包

⬇ 下载 gi-excel-pdf-process v1.0.0

文件大小: 3.89 KB | 发布时间: 2026-4-17 14:55

v1.0.0 最新 2026-4-17 14:55
Initial release. Gravitech Innovations.

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
返回顶部