返回顶部
d

docx-toolkitdocx工具包

Extract text, tables, and images from .docx and legacy .doc files. Handles large documents, CJK text, and complex table structures. Includes deduplication and filtering for extracted images.

作者: admin | 来源: ClawHub
源自
ClawHub
版本
V 1.0.0
安全检测
已通过
571
下载量
免费
免费
0
收藏
概述
安装方式
版本历史

docx-toolkit

DOCX 工具包

用于处理 Microsoft Word 文档(.docx 和旧版 .doc 格式)的完整工具包。

功能

1. 文本+表格提取(.docx)

bash python3 {baseDir}/scripts/extract_text.py input.docx output.txt

提取所有段落和表格,并保留结构。表格格式化为管道分隔行,便于解析。

2. 文本提取(旧版 .doc)

bash python3 {baseDir}/scripts/extractdoctext.py input.doc output.txt

使用 olefile 处理旧版 OLE2 .doc 格式。从 WordDocument 流中提取 Unicode 文本。

3. 图像提取(.docx)

bash python3 {baseDir}/scripts/extractimages.py input.docx outputdir/

提取所有嵌入图像,具备以下功能:

  • - 自动去重(MD5 哈希比较)
  • 尺寸过滤(默认跳过小于 5KB 的小图标)
  • 顺序重命名(img001.png、img002.jpg 等)

4. 图像压缩

bash python3 {baseDir}/scripts/resizeimages.py inputdir/ output_dir/ [--max-width 1024]

批量调整/压缩图像以用于 API 处理(可节省 50-70% 的视觉 API 成本)。

依赖项

  • - Python 3.6+
  • python-docx — 用于 .docx 处理
  • olefile — 用于旧版 .doc 处理
  • Pillow — 用于图像调整大小(可选,仅调整大小脚本需要)

安装:
bash
pip3 install python-docx olefile Pillow

使用场景

  • - 文档分析:提取文本供 AI 审查/总结
  • 迁移:从 Word 文档提取内容到其他格式
  • 图像审计:提取并审查所有嵌入图像
  • 成本优化:在发送到视觉 API 前压缩图像
  • 批量处理:在流水线中处理多个文档

注意事项

  • - 大型 .doc 文件(>200MB)可能需要大量 RAM 用于 olefile 处理
  • 图像提取保留原始格式(png/jpg/gif 等)
  • 去重功能捕获完全相同的副本;近似副本仍会通过
  • 两个提取器均完全支持中日韩(CJK)文本

标签

skill ai

通过对话安装

该技能支持在以下平台通过对话安装:

OpenClaw WorkBuddy QClaw Kimi Claude

方式一:安装 SkillHub 和技能

帮我安装 SkillHub 和 docx-toolkit-1776207049 技能

方式二:设置 SkillHub 为优先技能安装源

设置 SkillHub 为我的优先技能安装源,然后帮我安装 docx-toolkit-1776207049 技能

通过命令行安装

skillhub install docx-toolkit-1776207049

下载

⬇ 下载 docx-toolkit v1.0.0(免费)

文件大小: 8.25 KB | 发布时间: 2026-4-15 10:45

v1.0.0 最新 2026-4-15 10:45
Initial release: extract text, tables, images from .docx/.doc with CJK support

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
返回顶部