返回顶部
c

clean-content-fetch内容清洗抓取

获取干净、可读的网页正文内容,适合现代网页、博客、新闻、公告和微信公众号文章抓取;支持网页正文提取、内容清洗、去噪、Markdown 输出,适用于普通 fetch 效果不佳、页面噪音较多或动态渲染干扰的场景。Clean content fetch for modern web pages, article extraction, WeChat article capture, content cleanup, noise reduction, and markdown output when ordinary fetch is not clean enough.

作者: admin | 来源: ClawHub
源自
ClawHub
版本
V 1.0.5
安全检测
已通过
611
下载量
免费
免费
1
收藏
概述
安装方式
版本历史

clean-content-fetch

Scrapling Web Fetch

当用户需要获取网页内容、提取正文、将网页转换为Markdown/文本、抓取文章主体时,优先使用此技能。

默认流程

  1. 1. 使用 python3 scripts/scraplingfetch.py chars>
  2. 默认正文选择器优先级:
- article - main - .post-content - [class*=body]
  1. 3. 命中正文后,使用 html2text 转换为Markdown
  2. 若均未命中,回退到 body
  3. 最终按 max_chars 截断输出

用法

bash python3 scripts/scrapling_fetch.py 30000

依赖

常见依赖包括:
  • - scrapling
  • html2text
  • curl_cffi
  • playwright
  • browserforge

建议在隔离环境中安装依赖,再运行脚本。若宿主环境限制系统级pip安装,可使用项目级虚拟环境。

示例:
bash
python3 -m venv .venv
. .venv/bin/activate
pip install scrapling html2text curl_cffi playwright browserforge
python -m playwright install chromium
python scripts/scrapling_fetch.py 30000

输出约定

脚本默认输出Markdown正文内容。 如需结构化输出,可追加 --json。 如需调试提取命中了哪个选择器,可查看stderr输出。

附加资源

  • - 用法参考:references/usage.md
  • 选择器策略:references/selectors.md
  • 统一入口:scripts/fetch-web-content

何时使用此技能

  • - 获取文章正文
  • 抓取博客/新闻/公告正文
  • 将网页转换为Markdown供后续总结
  • 常规fetch效果不佳,希望提升现代网页抓取稳定性
  • 抓取小红书分享短链或笔记落地页正文

小红书抓取方法

对于 xhslink.com 短链或小红书笔记页,可直接运行: bash python3 scripts/scrapling_fetch.py http://xhslink.com/o/9745hugimlD 30000

说明:

  • - 脚本会先解析短链并抓取落地页正文
  • 适合提取小红书笔记文案、标题和主体内容
  • 若页面需要更复杂交互,再切换到浏览器自动化

安全边界

  • - 仅用于抓取公开网页的正文内容与可读文本
  • 不用于登录后页面、私有数据、受限资源或绕过权限控制
  • 若目标页面需要账号登录、点击授权、滚动交互或复杂会话状态,应改用浏览器自动化并在明确授权下执行

何时不使用

  • - 需要完整浏览器交互、点击、登录、翻页时:改用浏览器自动化
  • 只是简单获取API JSON:直接请求API更合适

标签

skill ai

通过对话安装

该技能支持在以下平台通过对话安装:

OpenClaw WorkBuddy QClaw Kimi Claude

方式一:安装 SkillHub 和技能

帮我安装 SkillHub 和 clean-content-fetch-1776187896 技能

方式二:设置 SkillHub 为优先技能安装源

设置 SkillHub 为我的优先技能安装源,然后帮我安装 clean-content-fetch-1776187896 技能

通过命令行安装

skillhub install clean-content-fetch-1776187896

下载

⬇ 下载 clean-content-fetch v1.0.5(免费)

文件大小: 5.17 KB | 发布时间: 2026-4-15 12:27

v1.0.5 最新 2026-4-15 12:27
Republish full bundle after path cleanup

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
返回顶部