docx-output

# DOCX 规范输出 Skill v4.1 ## 架构说明 ``` AI → Markdown（语义层） → Pandoc（渲染引擎）+ reference.docx 模板（14个，存储排版规范） → .docx 输出三大保障：编号正确 — Pandoc 对每个独立列表块天然从1计数，无需 hack 样式稳定 — 字体/字号/行距在模板中预定义，Word 原生渲染缩进保留 — Pandoc fenced code block 完整保留所有空白 ``` --- ## 文件结构 ``` docx-output/ ├── SKILL.md ← 本文件 ├── converter.py ← 核心转换器 ├── build_templates.py ← 模板构建脚本（首次或修改规范时运行） └── templates/ ← 14 个 reference.docx 模板 ├── template_GOV_DOC.docx ├── template_GOV_JUDICIAL.docx ├── template_BUSINESS_CONTRACT.docx ├── template_BUSINESS_TENDER.docx ├── template_BUSINESS_PLAN.docx ├── template_ACADEMIC_PAPER.docx ├── template_ACADEMIC_LESSON.docx ├── template_TECH_MANUAL.docx ├── template_MEDICAL_DOC.docx ├── template_MARKETING_DOC.docx ├── template_LEGAL_DOC.docx ├── template_FINANCE_REPORT.docx ├── template_ENGINEERING_DOC.docx └── template_GENERAL_DOC.docx ``` --- ## 第一步：环境检查与初始化 ```bash pandoc --version # 需要 Pandoc >= 2.0 # 安装：macOS: brew install pandoc | Ubuntu: sudo apt install pandoc # Windows: choco install pandoc 或 https://pandoc.org python3 -c "import docx" || pip install python-docx --break-system-packages # 首次部署，构建所有模板 python3 /path/to/skill/build_templates.py ``` --- ## 第二步：文档类型选择（19种） | doc_type | 场景 | 模板 | 序号风格 | |---|---|---|---| | `GOV_DOC` | 党政机关公文（通知/报告/决定） | GOV_DOC | 一、（一）1.（1）四级 | | `GOV_JUDICIAL` | 司法文书 | GOV_JUDICIAL | 一、（一）1. | | `GOV_DIPLOMATIC` | 外交照会 | GOV_JUDICIAL | 一、（一）1. | | `BUSINESS_CONTRACT` | 合同/协议 | BUSINESS_CONTRACT | 一、（一）1. | | `BUSINESS_TENDER` | 标书/投标文件 | BUSINESS_TENDER | 一、（一）1. | | `BUSINESS_PLAN` | 商业计划书/创业计划书 | BUSINESS_PLAN | 一、（一）1. | | `ACADEMIC_PAPER` | 学术论文/研究报告 | ACADEMIC_PAPER | 一、（一）1. | | `ACADEMIC_LESSON` | 教案/教学大纲 | ACADEMIC_LESSON | 一、（一）1. | | `TECH_SRS` | 软件需求规格说明书 | TECH_MANUAL | 1. 1.1 1.1.1 | | `TECH_MANUAL` | 用户手册/操作指南 | TECH_MANUAL | 1. 1.1 1.1.1 | | `MEDICAL_RECORD` | 病历/医疗记录 | MEDICAL_DOC | 一、（一）1. | | `MEDICAL_DRUG` | 药品说明书 | MEDICAL_DOC | 【模块名称】 | | `MARKETING_PLAN` | 营销策划案 | MARKETING_DOC | 一、（一）1. | | `MARKETING_ANALYSIS` | 市场分析报告 | MARKETING_DOC | 一、（一）1. | | `LEGAL_OPINION` | 法律意见书 | LEGAL_DOC | 一、（一）1.（1）四级 | | `LEGAL_LITIGATION` | 律师文书/诉状 | LEGAL_DOC | 一、（一）1.（1）四级 | | `FINANCE_REPORT` | 金融/财务报告 | FINANCE_REPORT | 一、（一）1. | | `ENGINEERING_DOC` | 工程文档/项目方案 | ENGINEERING_DOC | 1. 1.1 1. | | `GENERAL_DOC` | 通用商务文档（兜底） | GENERAL_DOC | 一、（一）1. | --- ## 第三步：各类型排版规范速查 ### GOV_DOC — 党政机关公文（GB/T 9704-2012） ``` 页边距：上3.7 下3.5 左2.8 右2.6（cm）标题：二号宋体（模拟小标宋），居中，不加粗正文：三号仿宋，固定行距28磅（每页22行/每行28字）序号：一、（一）1.（1）四级，第四级用 h4() 英文：Times New Roman 页码：首页不显示（模板已设置） ``` ### BUSINESS_TENDER — 标书/投标文件 ``` 页边距：上2.6 下2.2 左右2.5（cm）封面/目录：三号加粗微软雅黑（本类型专属字体）正文：小四号宋体，1.5倍行距英文：Calibri ``` ### ACADEMIC_PAPER — 学术论文 ``` 页边距：上下2.5 左3.1 右3.2（cm）标题：三号仿宋，前空三行后空两行，居中摘要：小四号仿宋，1.25倍，左右缩进2字符 → abstract() 关键词：小四号仿宋，另起一行 → abstract(keywords=...) 一级标题：四号黑体，前后空一行二级标题：小四号楷体正文：五号宋体，1.25倍，首行缩进2字符引文脚注：小五号，悬挂缩进1字符 → footnote_ref() 图题：五号仿宋，置图下方，自动编号 → figure_caption() 表题：五号仿宋，置表上方，自动编号 → table(caption=...) 英文：Times New Roman ``` ### TECH_MANUAL — 用户手册/操作指南 ``` 页边距：上下2.5 左右2.5（cm）封面：四号黑体，居中一级标题：小四号黑体，1. 格式，左对齐二级标题：小四号宋体加粗，1.1 格式步骤说明：项目符号列表 → bullet() 警告提示：红色加粗 ⚠ → warning() 代码块：Courier New，灰底，保留缩进 → code_block(lang="python") 正文：五号宋体，不缩进英文：Calibri ``` ### MEDICAL_DRUG — 药品说明书 ``` 模块标题：【药品名称】【作用与用途】等 → module_heading() 警示语：黑体加粗红色突出 → warning() 正文：小四号宋体，1.5倍行距英文：Times New Roman ``` ### LEGAL_DOC — 法律文书 ``` 页边距：上下2.54 左右3.17（cm）序号：一、（一）1.（1）严格四级引用法条：楷体，加「」引号 → quote() 落款：仿宋四号居中 → signature_block() 英文：Times New Roman ``` ### FINANCE_REPORT — 金融/财务报告 ``` 正文：四号宋体，固定行距28磅数据表格：关键数据加粗 → table(bold_rows=[0,1,...]) 配色：主色深蓝#2F5496，辅色浅灰，点缀橙色英文：Times New Roman ``` --- ## 第四步：生成脚本模板 ```python """generate_doc.py""" import sys, os sys.path.insert(0, os.path.dirname(os.path.abspath(__file__))) from converter import DocxConverter c = DocxConverter("TECH_MANUAL") # ← 替换为实际类型 # 标题 c.title("文档主标题") c.subtitle("副标题（可选）") # 标题层级（auto_number=True 智能防双重编号） c.h1("章节一") # → "1. 章节一" 或 "一、章节一"（按类型） c.h2("子章节") # → "1.1 子章节" 或 "（一）　子章节" c.h3("三级标题") # → "1.1.1" 或 "1." c.h4("四级标题") # → "（1）　四级标题"（公文/法律类型） # 已含序号不重复编号 c.h1("一、已有序号章节") # 检测到已有序号，直接输出不加前缀 # 正文（支持 Markdown 内联） c.body("正文段落，支持 **加粗** *斜体* `代码`。") # 编号列表（换章节自动重置） c.numbered("第一项") # → 1 c.numbered("第二项") # → 2 c.h1("新章节") c.numbered("又一项") # → 1（自动重置！） c.bullet("项目符号一") c.bullet(" - 子项", level=1) # === 专属 API === # 学术摘要 c.abstract("摘要内容...", keywords="关键词1；关键词2") # 脚注引用 c.footnote_ref("正文内容", "脚注：作者.书名.出版社,年份.") # 药品说明书模块标题 c.module_heading("药品名称") # 警告提示 c.warning("此操作不可逆，请谨慎执行！") # 图题（自动编号，置图下方） c.figure_caption("系统架构示意图") # 表格（表题置上，自动编号；数值列自动右对齐） c.table( headers=["指标", "方法A", "数值"], rows=[["准确率","92.3%","0.923"],["召回率","88.7%","0.887"]], caption="性能对比", bold_rows=[0] # 第一行加粗（金融报告关键数据） ) # 引用/法条 c.quote("《民法典》第X条：相关法律条文内容。") # 落款 c.signature_block("甲方：___________", "日期：___年___月___日") # 代码块（缩进完整保留） c.code_block("""import torch class Model(torch.nn.Module): def __init__(self): super().__init__() self.fc = torch.nn.Linear(10, 1)""", lang="python") # 目录条目 c.toc_entry("一、章节一", "1") c.toc_entry("1.1 子章节", "2", level=2) # 其他 c.highlight("重点内容") # 点缀色高亮 c.divider() # 分隔线 c.page_break() # 分页符 c.spacer(2) # 空行 c.save("/mnt/user-data/outputs/输出文件名.docx") ``` --- ## API 速查表 | 方法 | 说明 | 关键参数 | |------|------|---------| | `DocxConverter(doc_type)` | 创建转换器 | 19种类型之一 | | `title(text)` | 主标题 | — | | `subtitle(text)` | 副标题 | — | | `h1/h2/h3(text, auto_number)` | 一二三级标题 | `auto_number=True` 防双重编号 | | `h4(text, auto_number)` | **四级标题**（公文/法律规范）| 同上 | | `body(text)` | 正文段落 | 支持 Markdown 语法 | | `bullet(text, level)` | 项目符号列表 | `level=0/1/2` | | `numbered(text, level)` | **编号列表，换章节自动从1重置** | `level=0/1/2` | | `abstract(text, keywords)` | **学术摘要**（仿宋左右缩进2字符）| `keywords` 可选 | | `footnote_ref(text, note)` | **脚注引用**（学术引文） | `note` 脚注内容 | | `module_heading(name)` | **【模块名称】**（药品说明书） | — | | `warning(text)` | **⚠ 警告/提示**（红色加粗） | — | | `signature_block(*lines)` | **落款/签名区**（居中） | 多参数多行 | | `figure_caption(text, auto_number)` | **图题**（自动"图N"，置图下方） | — | | `table(headers, rows, caption, bold_rows)` | 规范表格 | `bold_rows` 加粗行 | | `quote(text)` | 引用/法条（blockquote） | — | | `code_block(code, lang)` | 代码块（缩进完整保留） | `lang="python"` | | `toc_entry(text, page, level)` | 目录条目（带点线）| `level=1/2/3` | | `highlight(text)` | 点缀色高亮 | — | | `divider()` | 分隔线 | — | | `page_break()` | 分页符 | — | | `spacer(n)` | 空行 | `n=1` | | `raw_markdown(md)` | 原始 Markdown | 高级用法 | | `to_markdown()` | 返回 Markdown（调试） | — | | `reset_numbering()` | 重置所有计数器 | — | | `save(path)` | **生成 docx**（调用 Pandoc） | 完整路径 | --- ## 通用排版规范（原指南第八章） ### 字体规范 | 类别 | 中文 | 英文 | |-----|------|------| | 正式文档（公文/法律/学术） | 宋体/仿宋/黑体/楷体 | Times New Roman | | 技术文档（SRS/手册/工程） | 宋体/黑体 | Calibri | | 商业文档（计划书/营销） | 黑体/宋体 | Calibri | | 特殊（标书目录） | 微软雅黑 | Calibri | ### 表格规范（原指南第八章第3节） - 外框 1.5pt 粗线，内框 0.5pt 细线（模板中设置） - 表头：加粗 + 主题色底色 + 白字 - 文字左对齐，数字右对齐（自动检测） - 表题置上，图题置下（原指南明确规定） ### 配色法则（60-30-10） | 角色 | 比例 | 颜色 | |-----|------|------| | 主色 | 60% | 深蓝#2F5496（商业/营销）/ 黑#000000（公文/学术） | | 辅助色 | 30% | 浅灰#D9D9D9 | | 点缀色 | 10% | 橙色#FFC000（商业）/ 红色#CC0000（公文/法律/警告） | ### 首页页码 - **党政公文**：首页不显示页码（`GOV_DOC` 模板已设置 `differentFirstPage=True`） - 其他类型：页脚居中，字号见各类型规范 --- ## 常见问题 | 问题 | 解决方案 | |------|---------| | `pandoc: command not found` | 安装 Pandoc | | 模板文件不存在 | `python3 build_templates.py` | | 中文字体异常（Linux） | `sudo apt install fonts-noto-cjk` | | 编号未从1重置 | 确保两个列表间有 `h1/h2/body` 调用 | | 代码缩进丢失 | 确认 Pandoc >= 2.0；使用 `code_block()` | | 四级标题不显示 | `GOV_DOC`/`LEGAL_DOC` 类型支持 h4 | --- --- ## 扩展功能：读取已有 Word 文档并重新排版 > **说明**：此功能是独立新增模块，不影响上述所有原有功能。 > 使用前请确保 `docx_reader.py` 和 `reformat.py` 与 `converter.py` 在同一目录。 ### 解决的问题 OpenClaw 无法直接读取 `.docx` 二进制文件。此模块在 Skill 内部增加**提取层**，将二进制自动转换为结构化内容，再交给现有排版引擎处理： ``` 用户的旧 .docx（二进制） ↓ docx_reader.py（提取层）结构化内容块（标题/正文/列表/表格/代码块） ↓ reformat.py（重排版层） DocxConverter → Pandoc + reference.docx 模板（原有排版引擎，不变） ↓ 重新排版的新 .docx ``` ### 新增文件 | 文件 | 作用 | |------|------| | `docx_reader.py` | 从任意 .docx 提取结构化内容（标题/正文/列表/表格/代码块）| | `reformat.py` | 一键重排版入口：读取 → 自动推断类型 → 输出新文档 | ### 命令行用法 ```bash # 最简用法：自动推断类型，输出到同目录 python3 reformat.py 我的文档.docx # 指定输出路径 + 强制文档类型 python3 reformat.py 旧文档.docx 新文档.docx --type GOV_DOC # 先预览提取内容，确认正确后再生成（推荐首次使用） python3 reformat.py 文档.docx --dry-run # 生成文档的同时查看 Markdown 中间产物 python3 reformat.py 文档.docx --show-md ``` 所有支持的 `--type` 值与上方文档类型表完全相同（19种）。 ### OpenClaw Skill 内调用 ```python import sys sys.path.insert(0, "/path/to/skill/") from reformat import reformat # 全自动：读取 → 推断类型 → 重排版 → 输出 result = reformat( input_path = "用户的旧文档.docx", output_path = "/mnt/user-data/outputs/重排版后文档.docx", # doc_type = "TECH_MANUAL", # 可选：强制指定类型，覆盖自动推断 ) print(result["doc_type"]) # 实际使用的文档类型 print(result["stats"]) # {'headings':38, 'paragraphs':33, 'tables':6, ...} ``` ### 自动提取能力 | 内容类型 | 提取方式 | 可靠性 | |---------|---------|-------| | 标题层级（h1～h4） | 优先用 Word 样式名，回退到字号+加粗启发式 | ⭐⭐⭐⭐⭐ | | 正文段落 | 直接读取 | ⭐⭐⭐⭐⭐ | | 项目符号列表 | 样式名 + XML numPr | ⭐⭐⭐⭐⭐ | | 编号列表 | 样式名 + XML numPr | ⭐⭐⭐⭐ | | 表格 | python-docx Table API | ⭐⭐⭐⭐⭐ | | 代码块 | Courier New 字体检测 + 代码样式名 | ⭐⭐⭐⭐ | | 文档类型自动推断 | 19种类型关键词评分 | ⭐⭐⭐⭐ | | 警告/摘要/落款识别 | 文本正则模式匹配 | ⭐⭐⭐ | ### 局限性说明 | 局限 | 处理建议 | |------|---------| | 图片无法提取（二进制数据） | 排版后手动在 Word 中插入图片 | | 文档全用 Normal 样式（无 Heading）| 先 `--dry-run` 检查，再 `--type` 强制指定类型 | | 复杂嵌套/合并单元格表格 | 提取为扁平结构，复杂格式需手动调整 | | 脚注/尾注内容 | 自动跳过，排版后可用 `footnote_ref()` 手动添加 |

docx-output

标签

通过对话安装

方式一：安装 SkillHub 和技能

方式二：设置 SkillHub 为优先技能安装源

通过命令行安装

下载 Zip 包

docx-output

docx-output

标签

通过对话安装

方式一：安装 SkillHub 和技能

方式二：设置 SkillHub 为优先技能安装源

通过命令行安装

下载 Zip 包

相关推荐

self-improvement

self-improvement

self-improvement

self-improvement