MarkItDown 文档转换技能
使用微软的 markitdown 库将各种文档格式转换为 Markdown。
支持的格式
- PDF (.pdf) Word 文档 (.doc, .docx) PowerPoint 演示文稿 (.ppt, .pptx) Excel 电子表格 (.xlsx) HTML 文件 (.html, .htm) 图片文件 (通过 OCR) 纯文本文件 等等...
快速开始
单个文件转换
CODEBLOCK0
使用提供的脚本
CODEBLOCK1
详细用法
单个文件转换
使用 scripts/convert.py:
CODEBLOCK2
如果不指定输出文件,会自动生成 .md 文件。
批量转换
使用 scripts/batch_convert.py:
CODEBLOCK3
会递归处理目录中的所有支持的文件。
图片提取
使用 scripts/extract_images.py:
CODEBLOCK4
从文档中提取所有图片并保存到指定目录。
脚本说明
- scripts/convert.py - 单个文件转换脚本 INLINECODE5 - 批量转换脚本 INLINECODE6 - 图片提取脚本
每个脚本都有 --help 选项查看详细参数。
安装依赖
Python 版本要求
markitdown 需要 Python 3.10 或更高版本。
检查 Python 版本:
CODEBLOCK5
安装 markitdown
使用 Python 3.10+ 安装:
CODEBLOCK6
可选:系统依赖
某些格式转换可能需要额外的系统依赖:
- PDF 处理 : brew install poppler (macOS) 或 apt install poppler-utils (Linux) OCR : brew install tesseract (macOS) 或 apt install tesseract-ocr (Linux)
验证安装
CODEBLOCK7
使用脚本
所有脚本都支持使用特定 Python 版本运行:
CODEBLOCK8
MarkItDown 文档转换技能
使用微软的 markitdown 库将各种文档格式转换为 Markdown。
支持的格式
- PDF (.pdf) Word 文档 (.doc, .docx) PowerPoint 演示文稿 (.ppt, .pptx) Excel 电子表格 (.xlsx) HTML 文件 (.html, .htm) 图片文件 (通过 OCR) 纯文本文件 等等...
快速开始
单个文件转换
python
from markitdown import MarkItDown
md = MarkItDown()
result = md.convert(document.pdf)
print(result.text_content)
使用提供的脚本
bash
转换单个文件
python3 scripts/convert.py input.pdf output.md
批量转换文件夹
python3 scripts/batch
convert.py input folder/ output_folder/
提取文档中的图片
python3 scripts/extract
images.py document.pdf images folder/
详细用法
单个文件转换
使用 scripts/convert.py:
bash
python3 scripts/convert.py file> [outputfile]
如果不指定输出文件,会自动生成 .md 文件。
批量转换
使用 scripts/batch_convert.py:
bash
python3 scripts/batchconvert.py directory>
会递归处理目录中的所有支持的文件。
图片提取
使用 scripts/extract_images.py:
bash
python3 scripts/extractimages.py file>
从文档中提取所有图片并保存到指定目录。
脚本说明
- scripts/convert.py - 单个文件转换脚本 scripts/batchconvert.py - 批量转换脚本 scripts/extractimages.py - 图片提取脚本
每个脚本都有 --help 选项查看详细参数。
安装依赖
Python 版本要求
markitdown 需要 Python 3.10 或更高版本。
检查 Python 版本:
bash
python3.12 --version # 或 python3.11, python3.13
安装 markitdown
使用 Python 3.10+ 安装:
bash
使用 Python 3.12(推荐)
python3.12 -m pip install --user --break-system-packages markitdown[all]
或使用虚拟环境
python3.12 -m venv markitdown-env
source markitdown-env/bin/activate
pip install markitdown[all]
可选:系统依赖
某些格式转换可能需要额外的系统依赖:
- PDF 处理 : brew install poppler (macOS) 或 apt install poppler-utils (Linux) OCR : brew install tesseract (macOS) 或 apt install tesseract-ocr (Linux)
验证安装
bash
python3.12 -c from markitdown import MarkItDown; print(安装成功!)
使用脚本
所有脚本都支持使用特定 Python 版本运行:
bash
使用 Python 3.12 运行
python3.12 scripts/convert.py input.pdf output.md
python3.12 scripts/batch
convert.py input folder/ output_folder/
python3.12 scripts/extract
images.py document.pdf images folder/