返回顶部
d

document-handler文档处理

Read, extract, and convert document files (PDF, DOCX, XLSX, PPTX, EPUB, RTF, ODT, ODS, ODP). Use when working with any document format: extracting text, metadata, converting formats, or processing content. Triggers on mentions of document files, file paths with document extensions, or requests to read/convert documents.

作者: admin | 来源: ClawHub
源自
ClawHub
版本
V 1.0.0
安全检测
已通过
326
下载量
免费
免费
0
收藏
概述
安装方式
版本历史

document-handler

文档处理器

从任何文档格式中提取文本、元数据和内容。

支持的格式

格式扩展名文本提取元数据转换
PDF.pdf✅ pdftotext✅ pdfinfo✅ pdftoppm
Word
.docx | ✅ unzip + xml | ✅ | ✅ | | Excel | .xlsx | ✅ unzip + xml | ✅ | ✅ | | PowerPoint | .pptx | ✅ unzip + xml | ✅ | ✅ | | EPUB | .epub | ✅ unzip + html | ✅ | ✅ | | RTF | .rtf | ✅ textutil | ✅ | ✅ | | OpenDocument | .odt, .ods, .odp | ✅ unzip + xml | ✅ | ✅ |

快速命令

PDF

bash

提取文本


pdftotext -layout input.pdf output.txt

获取元数据

pdfinfo input.pdf

转换为图像(用于OCR或查看)

pdftoppm -png input.pdf output_prefix

提取特定页面

pdftotext -f 5 -l 10 -layout input.pdf output.txt

DOCX/XLSX/PPTX(Office Open XML)

bash

从DOCX提取文本


unzip -p input.docx word/document.xml | sed s/<[^>]*>//g | tr -s \n

从XLSX提取文本(所有工作表)

unzip -p input.xlsx xl/sharedStrings.xml | sed s/<[^>]*>//g | tr -s \n

从PPTX提取文本

unzip -p input.pptx ppt/slides/.xml | sed s/<[^>]>//g | tr -s \n

获取元数据

unzip -p input.docx docProps/core.xml

RTF(macOS)

bash

将RTF转换为纯文本


textutil -convert txt input.rtf -output output.txt

将RTF转换为HTML

textutil -convert html input.rtf -output output.html

EPUB

bash

提取并读取EPUB内容


unzip -l input.epub # 列出内容
unzip -p input.epub *.html | lynx -stdin -dump # 通过lynx获取文本
unzip -p input.epub .xhtml | sed s/<[^>]>//g # 原始文本

OpenDocument(ODT/ODS/ODP)

bash

从ODT提取文本


unzip -p input.odt content.xml | sed s/<[^>]*>//g | tr -s \n

从ODS提取文本

unzip -p input.ods content.xml | sed s/<[^>]*>//g

获取元数据

unzip -p input.odt meta.xml

脚本

extract_document.sh

从任何支持的文档格式中提取文本和元数据。

bash
~/Dropbox/jarvis/skills/document-handler/scripts/extract_document.sh <文件>

输出:

  • - 文本内容到标准输出
  • 元数据作为JSON注释

pdftoimages.sh

将PDF页面转换为图像,用于OCR或视觉处理。

bash
~/Dropbox/jarvis/skills/document-handler/scripts/pdftoimages.sh <输出目录> [dpi]

工作流程

  1. 1. 识别格式 — 检查文件扩展名
  2. 提取文本 — 使用适当的工具
  3. 获取元数据 — 作者、日期、页数等
  4. 处理内容 — 摘要、搜索、转换

备注

  • - 包含扫描图像的PDF需要OCR(pdftoppm + tesseract)
  • 加密的PDF需要密码
  • 复杂格式可能在文本提取中丢失
  • 对于PDF中的表格,请考虑使用tabula或camelot

标签

skill ai

通过对话安装

该技能支持在以下平台通过对话安装:

OpenClaw WorkBuddy QClaw Kimi Claude

方式一:安装 SkillHub 和技能

帮我安装 SkillHub 和 document-handler-1776196803 技能

方式二:设置 SkillHub 为优先技能安装源

设置 SkillHub 为我的优先技能安装源,然后帮我安装 document-handler-1776196803 技能

通过命令行安装

skillhub install document-handler-1776196803

下载

⬇ 下载 document-handler v1.0.0(免费)

文件大小: 3.3 KB | 发布时间: 2026-4-15 11:05

v1.0.0 最新 2026-4-15 11:05
Initial release - extract text/metadata from PDF, DOCX, XLSX, PPTX, EPUB, RTF, ODT/ODS/ODP

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
返回顶部