返回顶部
d

docx-mddocx转md

|

作者: admin | 来源: ClawHub
源自
ClawHub
版本
V 1.0.1
安全检测
已通过
601
下载量
免费
免费
0
收藏
概述
安装方式
版本历史

docx-md

Word DOCX (OOXML) – docx-md

概述

三个入口点:读取 – 输出紧凑型Markdown(默认,节省Token)或完整JSON;修改 – 将AI返回的编辑内容应用到docx;定稿 – 接受所有修订并删除所有批注。通过OOXML(ZIP + XML)实现。无需商业Word库。

工作流程

目标操作
获取文档供AI处理读取:运行读取脚本 → Markdown(默认)或JSON。Markdown包含用于编辑定位的<!-- b:N -->块索引标记。
将AI编辑内容应用到docx
修改:使用docx + 编辑JSON运行应用脚本 → 带有修订标记和批注的新docx。 | | 交付最终版本 | 定稿:运行定稿脚本 → 无修订/批注的新docx。 |

面向LLM的流水线

  1. 1. 读取 – 解析docx;输出Markdown(默认)或JSON。Markdown每块使用前缀;修订:{+插入内容+} {-删除内容-};批注:[comment: 文本]。
  2. 将输出结果+任务提示发送给模型;要求模型仅输出编辑JSON:blockIndex、originalContent、content、basis。
  3. 修改 – 脚本从blockIndex、originalContent、content、basis推断操作;转换为OOXML(w:ins / w:del / 批注锚点),然后写回Word。
  4. 定稿 – 当用户确认后,运行定稿以接受所有修订并删除所有批注。

有关Markdown格式、JSON模式和编辑格式,请参阅references/llm-pipeline.md

1. 读取

  • - 解析word/document.xml(仅w:body)和word/comments.xml。
  • 输出Markdown(默认)或JSON。Markdown紧凑且节省Token。

脚本:scripts/read_docx.py

bash

默认:Markdown输出(节省Token)


python3 skills/docx-md/scripts/read_docx.py document.docx
python3 skills/docx-md/scripts/read_docx.py document.docx -o result.md

JSON输出(完整结构)

python3 skills/docx-md/scripts/read_docx.py document.docx -f json -o result.json

选项

  • - -o、--output – 输出路径(默认:标准输出)
  • -f、--format – md(默认)或json

2. 修改

  • - 输入:docx路径 + 编辑JSON { modifications: [{ blockIndex, originalContent, content, basis }] }(与读取输出的blockIndex相同)。
  • 流程:将JSON转换为OOXML(w:ins / w:del / 批注),然后写回Word。

脚本:scripts/applyeditsdocx.py。使用-作为编辑文件从标准输入读取JSON。

bash
python3 skills/docx-md/scripts/applyeditsdocx.py document.docx edits.json -o output.docx
python3 skills/docx-md/scripts/applyeditsdocx.py document.docx - -o output.docx # 标准输入

选项:--author(默认:Review)

3. 定稿

  • - 接受所有修订(展平为最终文本),删除所有批注。保存为新docx。
  • 使用docx-revisions接受修订(保留编码),然后通过原始字节的正则表达式删除批注标记。

脚本:scripts/finalize_docx.py

要求:pip install docx-revisions(参见requirements.txt)

bash
python3 skills/docx-md/scripts/finalize_docx.py input.docx -o output.docx

资源

scripts/

  • - readdocx.py – 读取:python3 scripts/readdocx.py document.docx [-o out.md] [-f md|json]
  • applyeditsdocx.py – 修改:python3 scripts/applyeditsdocx.py document.docx edits.json -o output.docx
  • finalizedocx.py – 定稿:python3 scripts/finalizedocx.py input.docx -o output.docx

references/

  • - ooxml.md – OOXML布局(document.xml、comments.xml、修订、批注)
  • llm-pipeline.md – 流水线:读取 → Markdown/JSON → 模型编辑 → 修改;定义Markdown格式、JSON结构(blockIndex、originalContent、content、basis)

标签

skill ai

通过对话安装

该技能支持在以下平台通过对话安装:

OpenClaw WorkBuddy QClaw Kimi Claude

方式一:安装 SkillHub 和技能

帮我安装 SkillHub 和 docx-md-1776317189 技能

方式二:设置 SkillHub 为优先技能安装源

设置 SkillHub 为我的优先技能安装源,然后帮我安装 docx-md-1776317189 技能

通过命令行安装

skillhub install docx-md-1776317189

下载

⬇ 下载 docx-md v1.0.1(免费)

文件大小: 18.83 KB | 发布时间: 2026-4-16 18:38

v1.0.1 最新 2026-4-16 18:38
- LICENSE.txt removed and replaced with LICENSE.
- Documentation updated to specify that the "finalize" script now uses the docx-revisions package to accept revisions (preserving encoding) and removes comments with a regex on raw bytes.
- Added requirement for the docx-revisions package in the finalize step, with install guidance in the documentation.

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
返回顶部