返回顶部
c

content-extract内容提取

Robust URL-to-Markdown extraction for OpenClaw workflows. Use when the user wants to "extract/summarize/convert a webpage to markdown" (especially WeChat mp.weixin.qq.com) and web_fetch/browser is blocked or messy. Uses a cheap probe via web_fetch first, then falls back to the official MinerU API (via the local mineru-extract skill) and returns a traceable result contract with source links.

作者: admin | 来源: ClawHub
源自
ClawHub
版本
V 1.0.0
安全检测
已通过
386
下载量
免费
免费
0
收藏
概述
安装方式
版本历史

content-extract

content-extract — 上层内容解析入口(MCP 语义对齐,但不跑 MCP Server)

目标:把“给我一个 URL → 产出可读 Markdown + 可追溯入口”变成一个统一入口,供后续所有业务 skill(github-explorer、写作类 skills、日报等)复用。

核心原则(来自你发的 Excel Skill 拆解文章的启发):

  • - 行为规约层:永远给出可追溯入口(原文 URL + 解析产物路径/链接),绝不编造来源。
  • Token 探针:先用低成本 probe 判断可不可以直接抓;不行再走重解析(MinerU)。
  • 反弹机制:失败时返回“下一步动作建议”,而不是一堆异常栈。

工作流(Decision Tree)

输入:url

0) Domain Whitelist(跳过 probe):若 URL 属于高概率反爬/动态站点(微信/知乎等),直接走 MinerU

  • - 白名单文件:references/domain-whitelist.md
  • 对命中白名单的 URL:强制 model_version=MinerU-HTML

1) Probe(低成本):优先用 web_fetch(url)

  • - 目标:拿到正文 markdown(便宜、快)
  • 判断“失败/不合格”条件(见 references/heuristics.md)包括:
- 403/401/反爬 - 只有“环境异常/验证码/请在微信打开”等提示 - 内容极短/明显导航页/丢正文

2) Fallback(高保真):走 MinerU 官方 API

  • - 调用下游 driver:skills/mineru-extract/scripts/mineruparsedocuments.py
  • 对 HTML 页面(微信等):强制 model_version=MinerU-HTML

3) 输出统一结果合同(Result Contract)

无论用 probe 还是 MinerU,都返回同一套结构:

json
{
ok: true,
source_url: ...,
engine: web_fetch ,
markdown: ...,
artifacts: {
out_dir: ...,
markdown_path: ...,
zip_path: ...
},
sources: [
原文URL,
(如使用MinerU)MinerU fullzipurl,
(如使用MinerU)本地markdown_path
],
notes: [任何重要限制/失败原因/下一步建议]
}

注意:engine 可能是 web_fetch 或 mineru。

MinerU 调用(给 agent 的确定性脚本)

当需要 MinerU 时,用这个命令(返回 JSON,且可把 markdown 内联进 JSON,便于下游总结):

bash
python3 mineru-extract/scripts/mineruparsedocuments.py \
--file-sources \
--model-version MinerU-HTML \
--emit-markdown --max-chars 20000

路径说明: 上述命令假设你在 skills 安装根目录下执行。如果 mineru-extract 安装在其他位置,请替换为实际路径。

交付规范(强制)

  • - 输出必须包含 sources(原文入口 + 解析产物入口)。
  • 如果 MinerU 成功:必须把 markdown_path(本地路径)写进 sources,方便复查。
  • 如果两条链路都失败:必须明确失败原因,并给出下一步(例如:让 Boss 提供可访问镜像链接 / 允许我用浏览器 relay 导出 HTML / 走上传 HTML 文件解析的兜底方案)。

本 skill 自身不做什么

  • - 不跑 MCP Server(避免常驻服务与运维负担)
  • 不试图绕过登录/验证码(这属于访问层问题;我们只做解析层和工作流路由)

References

  • - MinerU API docs: https://mineru.net/apiManage/docs
  • MinerU output files: https://opendatalab.github.io/MinerU/reference/output_files/

标签

skill ai

通过对话安装

该技能支持在以下平台通过对话安装:

OpenClaw WorkBuddy QClaw Kimi Claude

方式一:安装 SkillHub 和技能

帮我安装 SkillHub 和 content-extract-1776109108 技能

方式二:设置 SkillHub 为优先技能安装源

设置 SkillHub 为我的优先技能安装源,然后帮我安装 content-extract-1776109108 技能

通过命令行安装

skillhub install content-extract-1776109108

下载

⬇ 下载 content-extract v1.0.0(免费)

文件大小: 6.4 KB | 发布时间: 2026-4-15 12:18

v1.0.0 最新 2026-4-15 12:18
- Initial release of content-extract: a unified workflow for extracting readable Markdown from URLs, with a focus on reliability and traceable results.
- Prioritizes a low-cost web_fetch probe; automatically falls back to MinerU API for sites likely to block or when probe fails.
- Always returns a structured, traceable result including original and artifact source links.
- Includes robust fallback and troubleshooting guidance when extraction does not succeed.
- Special handling for high anti-crawling sites (e.g., WeChat, Zhihu), skipping probe and forcing MinerU extraction.

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
返回顶部