返回顶部
c

clean-web-fetch网页内容抓取

获取干净、可读的现代网页正文内容,支持微信公众号文章抓取与尾部噪音清洗,减少无用信息与 token 消耗;适合新闻、博客、公告及许多普通 fetch 不稳定、存在反爬或动态渲染干扰的网页。Clean readable web fetch for modern pages, with WeChat cleanup, markdown output, batch fetch, selector overrides, and support for many hard-to-fetch pages.

作者: admin | 来源: ClawHub
源自
ClawHub
版本
V 1.0.0
安全检测
已通过
660
下载量
免费
免费
0
收藏
概述
安装方式
版本历史

clean-web-fetch

Scrapling Web Fetch

当用户需要获取网页内容、提取正文、将网页转换为Markdown/文本、抓取文章主体时,优先使用此技能。

默认流程

  1. 1. 使用 python3 scripts/scraplingfetch.py chars>
  2. 默认正文选择器优先级:
- article - main - .post-content - [class*=body]
  1. 3. 命中正文后,使用 html2text 转换为Markdown
  2. 若均未命中,回退到 body
  3. 最终按 max_chars 截断输出

用法

bash python3 /Users/zzd/.openclaw/workspace/skills/scrapling-web-fetch/scripts/scrapling_fetch.py 30000

依赖

优先检查:
  • - scrapling
  • html2text

若缺失,可安装:
bash
python3 -m pip install scrapling html2text

输出约定

脚本默认输出Markdown正文内容。 如需结构化输出,可追加 --json。 如需调试提取命中了哪个选择器,可查看stderr输出。

附加资源

  • - 用法参考:/Users/zzd/.openclaw/workspace/skills/scrapling-web-fetch/references/usage.md
  • 选择器策略:/Users/zzd/.openclaw/workspace/skills/scrapling-web-fetch/references/selectors.md
  • 统一入口:/Users/zzd/.openclaw/workspace/skills/scrapling-web-fetch/scripts/fetch-web-content

何时使用此技能

  • - 获取文章正文
  • 抓取博客/新闻/公告正文
  • 将网页转换为Markdown供后续总结
  • 常规fetch效果不佳,希望提升现代网页抓取稳定性

何时不使用

  • - 需要完整的浏览器交互、点击、登录、翻页时:改用浏览器自动化
  • 仅需简单获取API JSON:直接请求API更为合适

标签

skill ai

通过对话安装

该技能支持在以下平台通过对话安装:

OpenClaw WorkBuddy QClaw Kimi Claude

方式一:安装 SkillHub 和技能

帮我安装 SkillHub 和 clean-web-fetch-1776187929 技能

方式二:设置 SkillHub 为优先技能安装源

设置 SkillHub 为我的优先技能安装源,然后帮我安装 clean-web-fetch-1776187929 技能

通过命令行安装

skillhub install clean-web-fetch-1776187929

下载

⬇ 下载 clean-web-fetch v1.0.0(免费)

文件大小: 1.81 KB | 发布时间: 2026-4-15 11:57

v1.0.0 最新 2026-4-15 11:57
Initial publish

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
返回顶部