返回顶部
m

mineru-extractMinerU提取

Use the official MinerU (mineru.net) parsing API to convert a URL (HTML pages like WeChat articles, or direct PDF/Office/image links) into clean Markdown + structured outputs. Use when web_fetch/browser can’t access or extracts messy content, and you want higher-fidelity parsing (layout/table/formula/OCR).

作者: admin | 来源: ClawHub
源自
ClawHub
版本
V 1.0.0
安全检测
已通过
344
下载量
免费
免费
0
收藏
概述
安装方式
版本历史

mineru-extract

MinerU Extract (官方API)

将MinerU用作上游内容标准化器:向MinerU提交URL,轮询完成状态,下载结果压缩包,并提取主要Markdown内容。

快速开始(MCP对齐)

我们遵循MinerU MCP思维模型,但运行MCP服务器。

  • - 主脚本(MCP风格):scripts/mineruparsedocuments.py
- 输入:--file-sources(逗号/换行符分隔) - 输出:标准输出的JSON合约:{ ok, items, errors }
  • - 底层脚本(单URL):scripts/mineru_extract.py

认证:

  • - 设置MINERU_TOKEN(来自mineru.net的Bearer令牌)

默认模型启发式规则:

  • - 以.pdf/.doc/.ppt/.png/.jpg结尾的URL → pipeline
  • 其他情况 → MinerU-HTML(最适合微信公众号文章等HTML页面)

1)配置令牌(技能本地)

将密钥放在技能根目录的.env文件中(不要粘贴到聊天输出中):

bash

在mineru-extract技能目录中:.env


MINERUTOKEN=yourtoken_here
MINERUAPIBASE=https://mineru.net

2)解析URL → Markdown(推荐)

MCP风格包装器(返回JSON,可选包含markdown文本):

bash
python3 mineru-extract/scripts/mineruparsedocuments.py \
--file-sources \n \
--language ch \
--enable-ocr \
--model-version MinerU-HTML

如果希望markdown内容内联在JSON中(可能较大):

bash
python3 mineru-extract/scripts/mineruparsedocuments.py \
--file-sources \
--model-version MinerU-HTML \
--emit-markdown --max-chars 20000

底层(单URL,将markdown输出到标准输出):

bash
python3 mineru-extract/scripts/mineru_extract.py --model MinerU-HTML --print > /tmp/out.md

输出

脚本始终将MinerU结果压缩包下载并解压到:

~/.openclaw/workspace/mineru//

它会写入:

  • - result.zip
  • 解压后的文件(Markdown + JSON + 资源文件)

它会向标准错误输出包含路径的JSON摘要:

  • - taskid, fullzipurl, outdir, markdown_path

参数(通用)

  • - --model:pipeline | vlm | MinerU-HTML(HTML需要MinerU-HTML)
  • --ocr/--no-ocr:启用OCR(对pipeline/vlm有效)
  • --table/--no-table:表格识别
  • --formula/--no-formula:公式识别
  • --language ch|en|...
  • --page-ranges 2,4-6(非HTML)
  • --timeout 600 / --poll-interval 2

失败模式与回退方案

  • - MinerU可能无法获取某些URL(反爬虫/地域限制/登录要求)
- 回退方案:提供HTML文件或PDF/长截图;然后通过MinerU批量上传端点实现上传+解析流程 - 始终报告失败的URL + MinerU的err_msg,并在输出中保留原始来源链接

参考资料

  • - MinerU API文档:https://mineru.net/apiManage/docs
  • MinerU输出文件:https://opendatalab.github.io/MinerU/reference/output_files/

标签

skill ai

通过对话安装

该技能支持在以下平台通过对话安装:

OpenClaw WorkBuddy QClaw Kimi Claude

方式一:安装 SkillHub 和技能

帮我安装 SkillHub 和 mineru-extract-1776109101 技能

方式二:设置 SkillHub 为优先技能安装源

设置 SkillHub 为我的优先技能安装源,然后帮我安装 mineru-extract-1776109101 技能

通过命令行安装

skillhub install mineru-extract-1776109101

下载

⬇ 下载 mineru-extract v1.0.0(免费)

文件大小: 10.23 KB | 发布时间: 2026-4-15 13:26

v1.0.0 最新 2026-4-15 13:26
- Initial release of mineru-extract skill, providing integration with the official MinerU parsing API.
- Converts URLs (HTML pages, PDFs, Office documents, images) into clean Markdown and structured outputs.
- Provides MCP-style batch and low-level scripts for parsing single or multiple URLs.
- Supports model selection, OCR, table and formula recognition, output language, and pagination options.
- Outputs include extracted Markdown, JSON summaries, and source asset files for each task.
- Includes robust error handling and fallback guidance for unsupported or inaccessible URLs.

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
返回顶部