返回顶部
d

docx-output

>

作者: admin | 来源: ClawHub
源自
ClawHub
版本
V 1.0.0
安全检测
已通过
209
下载量
1
收藏
概述
安装方式
版本历史

docx-output

# DOCX 规范输出 Skill v4.1 ## 架构说明 ``` AI → Markdown(语义层) → Pandoc(渲染引擎)+ reference.docx 模板(14个,存储排版规范) → .docx 输出 三大保障: 编号正确 — Pandoc 对每个独立列表块天然从1计数,无需 hack 样式稳定 — 字体/字号/行距在模板中预定义,Word 原生渲染 缩进保留 — Pandoc fenced code block 完整保留所有空白 ``` --- ## 文件结构 ``` docx-output/ ├── SKILL.md ← 本文件 ├── converter.py ← 核心转换器 ├── build_templates.py ← 模板构建脚本(首次或修改规范时运行) └── templates/ ← 14 个 reference.docx 模板 ├── template_GOV_DOC.docx ├── template_GOV_JUDICIAL.docx ├── template_BUSINESS_CONTRACT.docx ├── template_BUSINESS_TENDER.docx ├── template_BUSINESS_PLAN.docx ├── template_ACADEMIC_PAPER.docx ├── template_ACADEMIC_LESSON.docx ├── template_TECH_MANUAL.docx ├── template_MEDICAL_DOC.docx ├── template_MARKETING_DOC.docx ├── template_LEGAL_DOC.docx ├── template_FINANCE_REPORT.docx ├── template_ENGINEERING_DOC.docx └── template_GENERAL_DOC.docx ``` --- ## 第一步:环境检查与初始化 ```bash pandoc --version # 需要 Pandoc >= 2.0 # 安装:macOS: brew install pandoc | Ubuntu: sudo apt install pandoc # Windows: choco install pandoc 或 https://pandoc.org python3 -c "import docx" || pip install python-docx --break-system-packages # 首次部署,构建所有模板 python3 /path/to/skill/build_templates.py ``` --- ## 第二步:文档类型选择(19种) | doc_type | 场景 | 模板 | 序号风格 | |---|---|---|---| | `GOV_DOC` | 党政机关公文(通知/报告/决定) | GOV_DOC | 一、(一)1.(1)四级 | | `GOV_JUDICIAL` | 司法文书 | GOV_JUDICIAL | 一、(一)1. | | `GOV_DIPLOMATIC` | 外交照会 | GOV_JUDICIAL | 一、(一)1. | | `BUSINESS_CONTRACT` | 合同/协议 | BUSINESS_CONTRACT | 一、(一)1. | | `BUSINESS_TENDER` | 标书/投标文件 | BUSINESS_TENDER | 一、(一)1. | | `BUSINESS_PLAN` | 商业计划书/创业计划书 | BUSINESS_PLAN | 一、(一)1. | | `ACADEMIC_PAPER` | 学术论文/研究报告 | ACADEMIC_PAPER | 一、(一)1. | | `ACADEMIC_LESSON` | 教案/教学大纲 | ACADEMIC_LESSON | 一、(一)1. | | `TECH_SRS` | 软件需求规格说明书 | TECH_MANUAL | 1. 1.1 1.1.1 | | `TECH_MANUAL` | 用户手册/操作指南 | TECH_MANUAL | 1. 1.1 1.1.1 | | `MEDICAL_RECORD` | 病历/医疗记录 | MEDICAL_DOC | 一、(一)1. | | `MEDICAL_DRUG` | 药品说明书 | MEDICAL_DOC | 【模块名称】 | | `MARKETING_PLAN` | 营销策划案 | MARKETING_DOC | 一、(一)1. | | `MARKETING_ANALYSIS` | 市场分析报告 | MARKETING_DOC | 一、(一)1. | | `LEGAL_OPINION` | 法律意见书 | LEGAL_DOC | 一、(一)1.(1)四级 | | `LEGAL_LITIGATION` | 律师文书/诉状 | LEGAL_DOC | 一、(一)1.(1)四级 | | `FINANCE_REPORT` | 金融/财务报告 | FINANCE_REPORT | 一、(一)1. | | `ENGINEERING_DOC` | 工程文档/项目方案 | ENGINEERING_DOC | 1. 1.1 1. | | `GENERAL_DOC` | 通用商务文档(兜底) | GENERAL_DOC | 一、(一)1. | --- ## 第三步:各类型排版规范速查 ### GOV_DOC — 党政机关公文(GB/T 9704-2012) ``` 页边距:上3.7 下3.5 左2.8 右2.6(cm) 标题:二号宋体(模拟小标宋),居中,不加粗 正文:三号仿宋,固定行距28磅(每页22行/每行28字) 序号:一、(一)1.(1)四级,第四级用 h4() 英文:Times New Roman 页码:首页不显示(模板已设置) ``` ### BUSINESS_TENDER — 标书/投标文件 ``` 页边距:上2.6 下2.2 左右2.5(cm) 封面/目录:三号加粗微软雅黑(本类型专属字体) 正文:小四号宋体,1.5倍行距 英文:Calibri ``` ### ACADEMIC_PAPER — 学术论文 ``` 页边距:上下2.5 左3.1 右3.2(cm) 标题:三号仿宋,前空三行后空两行,居中 摘要:小四号仿宋,1.25倍,左右缩进2字符 → abstract() 关键词:小四号仿宋,另起一行 → abstract(keywords=...) 一级标题:四号黑体,前后空一行 二级标题:小四号楷体 正文:五号宋体,1.25倍,首行缩进2字符 引文脚注:小五号,悬挂缩进1字符 → footnote_ref() 图题:五号仿宋,置图下方,自动编号 → figure_caption() 表题:五号仿宋,置表上方,自动编号 → table(caption=...) 英文:Times New Roman ``` ### TECH_MANUAL — 用户手册/操作指南 ``` 页边距:上下2.5 左右2.5(cm) 封面:四号黑体,居中 一级标题:小四号黑体,1. 格式,左对齐 二级标题:小四号宋体加粗,1.1 格式 步骤说明:项目符号列表 → bullet() 警告提示:红色加粗 ⚠ → warning() 代码块:Courier New,灰底,保留缩进 → code_block(lang="python") 正文:五号宋体,不缩进 英文:Calibri ``` ### MEDICAL_DRUG — 药品说明书 ``` 模块标题:【药品名称】【作用与用途】等 → module_heading() 警示语:黑体加粗红色突出 → warning() 正文:小四号宋体,1.5倍行距 英文:Times New Roman ``` ### LEGAL_DOC — 法律文书 ``` 页边距:上下2.54 左右3.17(cm) 序号:一、(一)1.(1)严格四级 引用法条:楷体,加「」引号 → quote() 落款:仿宋四号居中 → signature_block() 英文:Times New Roman ``` ### FINANCE_REPORT — 金融/财务报告 ``` 正文:四号宋体,固定行距28磅 数据表格:关键数据加粗 → table(bold_rows=[0,1,...]) 配色:主色深蓝#2F5496,辅色浅灰,点缀橙色 英文:Times New Roman ``` --- ## 第四步:生成脚本模板 ```python """generate_doc.py""" import sys, os sys.path.insert(0, os.path.dirname(os.path.abspath(__file__))) from converter import DocxConverter c = DocxConverter("TECH_MANUAL") # ← 替换为实际类型 # 标题 c.title("文档主标题") c.subtitle("副标题(可选)") # 标题层级(auto_number=True 智能防双重编号) c.h1("章节一") # → "1. 章节一" 或 "一、章节一"(按类型) c.h2("子章节") # → "1.1 子章节" 或 "(一) 子章节" c.h3("三级标题") # → "1.1.1" 或 "1." c.h4("四级标题") # → "(1) 四级标题"(公文/法律类型) # 已含序号不重复编号 c.h1("一、已有序号章节") # 检测到已有序号,直接输出不加前缀 # 正文(支持 Markdown 内联) c.body("正文段落,支持 **加粗** *斜体* `代码`。") # 编号列表(换章节自动重置) c.numbered("第一项") # → 1 c.numbered("第二项") # → 2 c.h1("新章节") c.numbered("又一项") # → 1(自动重置!) c.bullet("项目符号一") c.bullet(" - 子项", level=1) # === 专属 API === # 学术摘要 c.abstract("摘要内容...", keywords="关键词1;关键词2") # 脚注引用 c.footnote_ref("正文内容", "脚注:作者.书名.出版社,年份.") # 药品说明书模块标题 c.module_heading("药品名称") # 警告提示 c.warning("此操作不可逆,请谨慎执行!") # 图题(自动编号,置图下方) c.figure_caption("系统架构示意图") # 表格(表题置上,自动编号;数值列自动右对齐) c.table( headers=["指标", "方法A", "数值"], rows=[["准确率","92.3%","0.923"],["召回率","88.7%","0.887"]], caption="性能对比", bold_rows=[0] # 第一行加粗(金融报告关键数据) ) # 引用/法条 c.quote("《民法典》第X条:相关法律条文内容。") # 落款 c.signature_block("甲方:___________", "日期:___年___月___日") # 代码块(缩进完整保留) c.code_block("""import torch class Model(torch.nn.Module): def __init__(self): super().__init__() self.fc = torch.nn.Linear(10, 1)""", lang="python") # 目录条目 c.toc_entry("一、章节一", "1") c.toc_entry("1.1 子章节", "2", level=2) # 其他 c.highlight("重点内容") # 点缀色高亮 c.divider() # 分隔线 c.page_break() # 分页符 c.spacer(2) # 空行 c.save("/mnt/user-data/outputs/输出文件名.docx") ``` --- ## API 速查表 | 方法 | 说明 | 关键参数 | |------|------|---------| | `DocxConverter(doc_type)` | 创建转换器 | 19种类型之一 | | `title(text)` | 主标题 | — | | `subtitle(text)` | 副标题 | — | | `h1/h2/h3(text, auto_number)` | 一二三级标题 | `auto_number=True` 防双重编号 | | `h4(text, auto_number)` | **四级标题**(公文/法律规范)| 同上 | | `body(text)` | 正文段落 | 支持 Markdown 语法 | | `bullet(text, level)` | 项目符号列表 | `level=0/1/2` | | `numbered(text, level)` | **编号列表,换章节自动从1重置** | `level=0/1/2` | | `abstract(text, keywords)` | **学术摘要**(仿宋左右缩进2字符)| `keywords` 可选 | | `footnote_ref(text, note)` | **脚注引用**(学术引文) | `note` 脚注内容 | | `module_heading(name)` | **【模块名称】**(药品说明书) | — | | `warning(text)` | **⚠ 警告/提示**(红色加粗) | — | | `signature_block(*lines)` | **落款/签名区**(居中) | 多参数多行 | | `figure_caption(text, auto_number)` | **图题**(自动"图N",置图下方) | — | | `table(headers, rows, caption, bold_rows)` | 规范表格 | `bold_rows` 加粗行 | | `quote(text)` | 引用/法条(blockquote) | — | | `code_block(code, lang)` | 代码块(缩进完整保留) | `lang="python"` | | `toc_entry(text, page, level)` | 目录条目(带点线)| `level=1/2/3` | | `highlight(text)` | 点缀色高亮 | — | | `divider()` | 分隔线 | — | | `page_break()` | 分页符 | — | | `spacer(n)` | 空行 | `n=1` | | `raw_markdown(md)` | 原始 Markdown | 高级用法 | | `to_markdown()` | 返回 Markdown(调试) | — | | `reset_numbering()` | 重置所有计数器 | — | | `save(path)` | **生成 docx**(调用 Pandoc) | 完整路径 | --- ## 通用排版规范(原指南第八章) ### 字体规范 | 类别 | 中文 | 英文 | |-----|------|------| | 正式文档(公文/法律/学术) | 宋体/仿宋/黑体/楷体 | Times New Roman | | 技术文档(SRS/手册/工程) | 宋体/黑体 | Calibri | | 商业文档(计划书/营销) | 黑体/宋体 | Calibri | | 特殊(标书目录) | 微软雅黑 | Calibri | ### 表格规范(原指南第八章第3节) - 外框 1.5pt 粗线,内框 0.5pt 细线(模板中设置) - 表头:加粗 + 主题色底色 + 白字 - 文字左对齐,数字右对齐(自动检测) - 表题置上,图题置下(原指南明确规定) ### 配色法则(60-30-10) | 角色 | 比例 | 颜色 | |-----|------|------| | 主色 | 60% | 深蓝#2F5496(商业/营销)/ 黑#000000(公文/学术) | | 辅助色 | 30% | 浅灰#D9D9D9 | | 点缀色 | 10% | 橙色#FFC000(商业)/ 红色#CC0000(公文/法律/警告) | ### 首页页码 - **党政公文**:首页不显示页码(`GOV_DOC` 模板已设置 `differentFirstPage=True`) - 其他类型:页脚居中,字号见各类型规范 --- ## 常见问题 | 问题 | 解决方案 | |------|---------| | `pandoc: command not found` | 安装 Pandoc | | 模板文件不存在 | `python3 build_templates.py` | | 中文字体异常(Linux) | `sudo apt install fonts-noto-cjk` | | 编号未从1重置 | 确保两个列表间有 `h1/h2/body` 调用 | | 代码缩进丢失 | 确认 Pandoc >= 2.0;使用 `code_block()` | | 四级标题不显示 | `GOV_DOC`/`LEGAL_DOC` 类型支持 h4 | --- --- ## 扩展功能:读取已有 Word 文档并重新排版 > **说明**:此功能是独立新增模块,不影响上述所有原有功能。 > 使用前请确保 `docx_reader.py` 和 `reformat.py` 与 `converter.py` 在同一目录。 ### 解决的问题 OpenClaw 无法直接读取 `.docx` 二进制文件。此模块在 Skill 内部增加**提取层**, 将二进制自动转换为结构化内容,再交给现有排版引擎处理: ``` 用户的旧 .docx(二进制) ↓ docx_reader.py(提取层) 结构化内容块(标题/正文/列表/表格/代码块) ↓ reformat.py(重排版层) DocxConverter → Pandoc + reference.docx 模板(原有排版引擎,不变) ↓ 重新排版的新 .docx ``` ### 新增文件 | 文件 | 作用 | |------|------| | `docx_reader.py` | 从任意 .docx 提取结构化内容(标题/正文/列表/表格/代码块)| | `reformat.py` | 一键重排版入口:读取 → 自动推断类型 → 输出新文档 | ### 命令行用法 ```bash # 最简用法:自动推断类型,输出到同目录 python3 reformat.py 我的文档.docx # 指定输出路径 + 强制文档类型 python3 reformat.py 旧文档.docx 新文档.docx --type GOV_DOC # 先预览提取内容,确认正确后再生成(推荐首次使用) python3 reformat.py 文档.docx --dry-run # 生成文档的同时查看 Markdown 中间产物 python3 reformat.py 文档.docx --show-md ``` 所有支持的 `--type` 值与上方文档类型表完全相同(19种)。 ### OpenClaw Skill 内调用 ```python import sys sys.path.insert(0, "/path/to/skill/") from reformat import reformat # 全自动:读取 → 推断类型 → 重排版 → 输出 result = reformat( input_path = "用户的旧文档.docx", output_path = "/mnt/user-data/outputs/重排版后文档.docx", # doc_type = "TECH_MANUAL", # 可选:强制指定类型,覆盖自动推断 ) print(result["doc_type"]) # 实际使用的文档类型 print(result["stats"]) # {'headings':38, 'paragraphs':33, 'tables':6, ...} ``` ### 自动提取能力 | 内容类型 | 提取方式 | 可靠性 | |---------|---------|-------| | 标题层级(h1~h4) | 优先用 Word 样式名,回退到字号+加粗启发式 | ⭐⭐⭐⭐⭐ | | 正文段落 | 直接读取 | ⭐⭐⭐⭐⭐ | | 项目符号列表 | 样式名 + XML numPr | ⭐⭐⭐⭐⭐ | | 编号列表 | 样式名 + XML numPr | ⭐⭐⭐⭐ | | 表格 | python-docx Table API | ⭐⭐⭐⭐⭐ | | 代码块 | Courier New 字体检测 + 代码样式名 | ⭐⭐⭐⭐ | | 文档类型自动推断 | 19种类型关键词评分 | ⭐⭐⭐⭐ | | 警告/摘要/落款识别 | 文本正则模式匹配 | ⭐⭐⭐ | ### 局限性说明 | 局限 | 处理建议 | |------|---------| | 图片无法提取(二进制数据) | 排版后手动在 Word 中插入图片 | | 文档全用 Normal 样式(无 Heading)| 先 `--dry-run` 检查,再 `--type` 强制指定类型 | | 复杂嵌套/合并单元格表格 | 提取为扁平结构,复杂格式需手动调整 | | 脚注/尾注内容 | 自动跳过,排版后可用 `footnote_ref()` 手动添加 |

标签

skill ai

通过对话安装

该技能支持在以下平台通过对话安装:

OpenClaw WorkBuddy QClaw Kimi Claude

方式一:安装 SkillHub 和技能

帮我安装 SkillHub 和 generate-docx-1776103862 技能

方式二:设置 SkillHub 为优先技能安装源

设置 SkillHub 为我的优先技能安装源,然后帮我安装 generate-docx-1776103862 技能

通过命令行安装

skillhub install generate-docx-1776103862

下载 Zip 包

⬇ 下载 docx-output v1.0.0

文件大小: 25.98 KB | 发布时间: 2026-4-17 14:54

v1.0.0 最新 2026-4-17 14:54
- Initial release of the skill for generating Word (.docx) files with strict Chinese national and industry-standard formatting.
- Supports 19 types of documents including government, business, academic, technical, medical, marketing, legal, finance, engineering, and general documents.
- Features Pandoc-based rendering for robust numbering, stable styles, and accurate indentation, compatible across Windows, macOS, and Linux.
- Offers easy-to-use Python API for structured document creation and automated style compliance.

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
返回顶部