返回顶部
f

fundreport-scrape基金月报提取

基金月报信息提取。支持文本+OCR 双重提取,自动处理双月对比。从 PDF 月报提取数据并填充 Excel 模板。

作者: admin | 来源: ClawHub
源自
ClawHub
版本
V 1.0.0
安全检测
已通过
179
下载量
免费
免费
0
收藏
概述
安装方式
版本历史

fundreport-scrape

基金月报信息提取

上传 Excel 模板和 PDF 月报,AI 自动提取数据(文本+OCR)并生成对比 Excel。



🌟 技能亮点

  • - 文本+OCR 双重提取 - 图表数据不遗漏,识别准确率 95%+
  • 双月自动对比 - 一次处理两个月份,生成完整对比数据
  • 智能日期解析 - 支持 YYYYMM 和 YYMM 格式,自动补全年份
  • 批量处理 - 一次处理 10+ 只基金,节省 99% 时间

⚙️ 功能

功能说明
核心指标提取久期、到期收益率 (YTM)、基金规模
分布数据提取
行业分布、地区分布、信用评级分布 | | 模板保持 | 保持 Excel 原有样式、公式、数据类型 | | 智能匹配 | 字段名模糊匹配,适应不同表述方式 | | 自动分类 | 识别基金名称和日期,智能分 Sheet |

📥 输入

类型说明要求
Excel 模板用户自定义格式文件名:互认基金月度更新_YYYYMMvsYYYYMM.xlsx
PDF 月报
基金月度报告 | 支持文本/图表/扫描版,文件名含月份(如 华夏 2601.pdf) |

📤 输出

文件说明
互认基金月度更新YYYYMMvsYYYYMM最终版.xlsx包含上月(列 4)和本月(列 6)的完整对比数据

提取内容:

  • - 核心指标:久期、YTM(两月对比)
  • 分布数据:行业、地区、信用评级(两月对比)
  • 其他:十大持仓、派息记录等



🚀 快速开始

1️⃣ 安装依赖(首次使用)

bash

系统工具


yum install -y tesseract tesseract-langpack-chi_simp poppler-utils

Python 包

pip install pdf2image Pillow opencv-python-headless

2️⃣ 准备文件

工作目录/
├── 模板/
│ └── 互认基金月度更新_202512vs202601.xlsx
├── 月报数据/
│ ├── 202512/ # 上月 PDF
│ │ ├── 华夏 202512.pdf
│ │ └── 南方东英 202512.pdf
│ └── 202601/ # 本月 PDF
│ ├── 华夏 2601.pdf
│ └── 南方东英 2601.pdf

3️⃣ 运行处理

bash
cd ~/.agents/skills/fundreport-scrape

python3 scripts/autoupdatetwo_months.py \
/path/to/互认基金月度更新_202512vs202601.xlsx \
/path/to/月报数据/202512/ \
/path/to/月报数据/202601/ \
/path/to/互认基金月度更新202512vs202601最终版.xlsx

4️⃣ 查看结果

输出文件包含:

  • - ✅ 上月数据(列 4):202512
  • ✅ 本月数据(列 6):202601
  • ✅ 自动对比:久期、YTM、行业分布等



📁 文件结构

fundreport-scrape/
├── SKILL.md # 技能说明
├── SECURITY_REVIEW.md # 安全评估报告
├── _meta.json # 元数据
├── requirements.txt # Python 依赖
├── scripts/
│ ├── autoupdatetwo_months.py # ⭐ 双月处理(推荐)
│ ├── autoupdateocr.py # OCR 增强版
│ └── installocrdeps.sh # 依赖安装脚本
└── references/
├── extraction_templates.json # 提取模板配置
├── ocr_rules.md # OCR 识别规则
├── field_mapping.md # 字段映射规则
├── template_learning.md # 模板学习规则
├── batch_processing.md # 批量处理规则
└── interaction_rules.md # 交互规则



📋 脚本说明


脚本用途推荐使用
autoupdatetwomonths.py双月对比处理⭐⭐⭐ 推荐
autoupdate_ocr.py
单月 OCR 处理 | ⭐⭐ 备选 |
| installocrdeps.sh | 一键安装依赖 | ⭐⭐⭐ 首次使用 |


❓ 常见问题

Q1: OCR 识别准确率低?

A: 确保 PDF 清晰度足够,建议:

  • - 使用 300 DPI 以上的 PDF
  • 避免模糊或压缩过度的文件
  • 图表数据建议对照 PDF 手动验证

Q2: 日期解析错误?

A: 检查文件名格式:

  • - Excel 文件名必须包含 YYYYMMvsYYYYMM
  • PDF 文件名应包含月份信息(如 2601 或 202601)

Q3: 部分基金数据未提取?

A: 可能原因:

  • - PDF 中基金名称与模板不匹配
  • 数据以复杂图表形式存在
  • 建议查看日志中的未匹配提示



📝 更新日志

v1.0.0 (2026-03-14)

核心功能:

  • - ✅ 文本+OCR 双重提取,支持图表数据识别
  • ✅ 双月对比处理,自动生成对比数据
  • ✅ 智能日期解析,支持 YYYYMM 和 YYMM 格式
  • ✅ 自动年份补齐(2601 → 202601)
  • ✅ 从 Excel 文件名解析对比月份
  • ✅ 批量处理 10+ 只基金
  • ✅ 保持 Excel 原有样式和公式

技术特性:

  • - ✅ Tesseract OCR 引擎(中文+英文)
  • ✅ pdfplumber 文本提取
  • ✅ OpenCV 图像预处理
  • ✅ 自动基金匹配和分类

系统依赖:

  • - Tesseract OCR 5.x + 中文语言包
  • Poppler-utils(PDF 转图片)
  • Python 3.8+

标签

skill ai

通过对话安装

该技能支持在以下平台通过对话安装:

OpenClaw WorkBuddy QClaw Kimi Claude

方式一:安装 SkillHub 和技能

帮我安装 SkillHub 和 fundreport-scrape-1776089945 技能

方式二:设置 SkillHub 为优先技能安装源

设置 SkillHub 为我的优先技能安装源,然后帮我安装 fundreport-scrape-1776089945 技能

通过命令行安装

skillhub install fundreport-scrape-1776089945

下载

⬇ 下载 fundreport-scrape v1.0.0(免费)

文件大小: 34.77 KB | 发布时间: 2026-4-15 12:49

v1.0.0 最新 2026-4-15 12:49
fundreport-scrape v1.0.0

- 支持基金月报文本+OCR双重信息提取,提升识别准确率
- 自动处理双月对比,智能解析与补全日期格式
- 批量处理10+基金PDF,输出对比Excel,保持原有模板样式与公式
- 提取核心指标与分布数据,兼容不同表述和智能匹配字段
- 附带一键依赖安装脚本及全面文档说明

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
返回顶部