Type	Actions
Invoice	createexpense, archive, taxreport
Business Card

Agent PaddleOCR Vision

具备智能体操作的OCR——仅基于PaddleOCR实现。 自动分类文档并提供可操作提示。

功能概述

- 通过 PaddleOCR云API 进行OCR提取（需配置凭证）
支持11种文档类型：发票、名片、收据、表格、合同、身份证、护照、银行对账单、驾驶证、税务表单、通用文档
提供带结构化参数的操作建议
支持批量处理
可生成可搜索PDF（带边界框对齐）

快速开始

bash

安装依赖

pip3 install -r scripts/requirements.txt

配置PaddleOCR API

export PADDLEOCRDOCPARSINGAPIURL=https://your-api.paddleocr.com/layout-parsing export PADDLEOCRACCESSTOKEN=your_token

处理单个文件

python3 scripts/doc_vision.py --file-path ./invoice.jpg --pretty --make-searchable-pdf

批量处理

bash
python3 scripts/doc_vision.py --batch-dir ./inbox --output-dir ./out

输出说明

完整JSON模式及集成指南请参见 docs/README.zh.md。

支持类型

类型	操作
发票	创建支出、归档、税务申报
名片

配置说明

必需的环境变量：

- PADDLEOCRDOCPARSINGAPIURL — 以 /layout-parsing 结尾的API端点
PADDLEOCRACCESSTOKEN — 访问令牌

可选配置：

- PADDLEOCRDOCPARSING_TIMEOUT — 默认600秒

可搜索PDF

使用 --make-searchable-pdf 参数时，通过边界框将OCR文本层嵌入并与原始布局对齐。需要 pdf2image + poppler（系统级）以及 reportlab、pypdf、pillow（Python库）。

完整文档

详细用法、故障排除及开发指南以多语言版本存放于 docs/ 目录：

- 中文: docs/README.zh.md
English: docs/README.en.md
Español: docs/README.es.md
العربية: docs/README.ar.md

许可证

MIT-0

专为OpenClaw打造。 让您的智能体看得见、能行动。

agent-paddleocr-visionPaddleOCR文档理解