Robust URL-to-Markdown extraction for OpenClaw workflows. Use when the user wants to "extract/summarize/convert a webpage to markdown" (especially WeChat mp.weixin.qq.com) and web_fetch/browser is blocked or messy. Uses a cheap probe via web_fetch first, then falls back to the official MinerU API (via the local mineru-extract skill) and returns a traceable result contract with source links.
目标:把“给我一个 URL → 产出可读 Markdown + 可追溯入口”变成一个统一入口,供后续所有业务 skill(github-explorer、写作类 skills、日报等)复用。
核心原则(来自你发的 Excel Skill 拆解文章的启发):
输入:url
0) Domain Whitelist(跳过 probe):若 URL 属于高概率反爬/动态站点(微信/知乎等),直接走 MinerU
1) Probe(低成本):优先用 web_fetch(url)
2) Fallback(高保真):走 MinerU 官方 API
3) 输出统一结果合同(Result Contract)
无论用 probe 还是 MinerU,都返回同一套结构:
json
{
ok: true,
source_url: ...,
engine: web_fetch ,
markdown: ...,
artifacts: {
out_dir: ...,
markdown_path: ...,
zip_path: ...
},
sources: [
原文URL,
(如使用MinerU)MinerU fullzipurl,
(如使用MinerU)本地markdown_path
],
notes: [任何重要限制/失败原因/下一步建议]
}
注意:engine 可能是 web_fetch 或 mineru。
当需要 MinerU 时,用这个命令(返回 JSON,且可把 markdown 内联进 JSON,便于下游总结):
bash
python3 mineru-extract/scripts/mineruparsedocuments.py \
--file-sources
--model-version MinerU-HTML \
--emit-markdown --max-chars 20000
路径说明: 上述命令假设你在 skills 安装根目录下执行。如果 mineru-extract 安装在其他位置,请替换为实际路径。
该技能支持在以下平台通过对话安装:
帮我安装 SkillHub 和 content-extract-1776109108 技能
设置 SkillHub 为我的优先技能安装源,然后帮我安装 content-extract-1776109108 技能
skillhub install content-extract-1776109108
文件大小: 6.4 KB | 发布时间: 2026-4-15 12:18