返回顶部
w

web-fetcher智能网页抓取

Smart web content fetcher - articles and videos from WeChat, Feishu, Bilibili, Zhihu, Toutiao, YouTube, etc. Triggers: '抓取文章', '下载网页', '保存文章', 'fetch URL', '下载视频', '抓取飞书文档', '抓取微信文章', '把这个链接内容保存下来', '下载B站视频', 'download video', 'scrape article'.

作者: admin | 来源: ClawHub
源自
ClawHub
版本
V 0.1.1
安全检测
已通过
428
下载量
免费
免费
0
收藏
概述
安装方式
版本历史

web-fetcher

技能名称: web-fetcher

详细描述:

Web 抓取器

适用于 Claude Code 的智能网页内容抓取工具。自动检测平台并使用最佳策略抓取文章或下载视频。

快速开始

bash

抓取文章


python3 {SKILL_DIR}/fetcher.py URL -o ~/docs/

下载视频

python3 {SKILL_DIR}/fetcher.py https://b23.tv/xxx -o ~/videos/

从文件批量抓取

python3 {SKILL_DIR}/fetcher.py --urls-file urls.txt -o ~/docs/

安装依赖

仅安装所需内容——依赖项在运行时检查:

依赖项用途安装命令
scrapling文章抓取(HTTP + 浏览器)pip install scrapling
yt-dlp
视频下载 | pip install yt-dlp |
| camoufox | 反检测浏览器(小红书、微博) | pip install camoufox && python3 -m camoufox fetch |
| html2text | HTML 转 Markdown 转换 | pip install html2text |

智能路由

抓取工具自动根据 URL 检测平台:

平台方法备注
mp.weixin.qq.comscrapling提取 data-src 图片,处理 SVG 占位符
*.feishu.cn
虚拟滚动 | 通过滚动收集所有区块,使用 cookies 下载图片 |
| zhuanlan.zhihu.com | scrapling | .Post-RichText 选择器 |
| www.zhihu.com | scrapling | .RichContent 选择器 |
| www.toutiao.com | scrapling | 处理 toutiaoimg.com base64 占位符 |
| www.xiaohongshu.com | camoufox | 反爬虫保护需要隐身浏览器 |
| www.weibo.com | camoufox | 反爬虫保护需要隐身浏览器 |
| bilibili.com / b23.tv | yt-dlp | 视频下载,支持画质选择 |
| youtube.com / youtu.be | yt-dlp | 视频下载 |
| douyin.com | yt-dlp | 视频下载 |
| 未知 URL | scrapling | 通用抓取,带降级策略 |

CLI 参考

python3 {SKILL_DIR}/fetcher.py [URL] [选项]

参数:
url 要抓取的 URL

选项:
-o, --output 目录 输出目录(默认:当前目录)
-q, --quality 画质 视频画质,例如 1080、720(默认:1080)
--method 方法 强制指定方法:scrapling、camoufox、ytdlp、feishu
--selector CSS 选择器 强制指定内容提取的 CSS 选择器
--urls-file 文件 包含 URL 的文件(每行一个,# 表示注释)
--audio-only 仅提取音频(视频下载)
--no-images 跳过图片下载(文章)
--cookies-browser 浏览器 用于 cookies 的浏览器(例如 chrome、firefox)

平台说明

微信(mp.weixin.qq.com)

  • - 图片使用 data-src 属性,URL 为 mmbiz.qpic.cn
  • 可见的 标签包含 SVG 占位符(懒加载)
  • 图片下载需要 Referer: https://mp.weixin.qq.com/ 请求头
  • Scrapling 的 GET 请求通常有效;无需浏览器

飞书(*.feishu.cn)

  • - 使用虚拟滚动——内容块按需渲染
  • 抓取工具滚动整个文档,收集 [data-block-id] 元素
  • 图片需要经过身份验证的抓取(cookies),通过浏览器的 fetch API 下载
  • 可能显示无法打印的残留内容,会自动清理

Bilibili

  • - 短链接(b23.tv)会自动解析
  • 对于付费/会员内容,使用 --cookies-browser chrome
  • 默认画质为 1080p,可通过 -q 调整

故障排除

问题解决方案
scrapling not foundpip install scrapling
yt-dlp not found
pip install yt-dlp | | 文章内容过短 | 对 JS 密集型页面尝试 --method camoufox | | 飞书返回登录页面 | 文档可能需要身份验证 | | Bilibili 返回 403 | 使用 --cookies-browser chrome | | 图片下载失败 | 检查网络;微信图片需要 Referer 请求头(自动处理) |

手动使用

当 CLI 不满足需求时,可直接使用模块:

python
from lib.router import route, check_dependency
from lib.article import fetch_article
from lib.video import fetch_video
from lib.feishu import fetch_feishu

路由 URL

r = route(https://mp.weixin.qq.com/s/xxx)

{type: article, method: scrapling, selector: #jscontent, post: wximages}

抓取文章

fetcharticle(url, outputdir=/tmp/out, route_config=r)

下载视频

fetchvideo(url, outputdir=/tmp/out, quality=720)

抓取飞书文档

fetchfeishu(url, outputdir=/tmp/out)

标签

skill ai

通过对话安装

该技能支持在以下平台通过对话安装:

OpenClaw WorkBuddy QClaw Kimi Claude

方式一:安装 SkillHub 和技能

帮我安装 SkillHub 和 web-fetcher-1776175623 技能

方式二:设置 SkillHub 为优先技能安装源

设置 SkillHub 为我的优先技能安装源,然后帮我安装 web-fetcher-1776175623 技能

通过命令行安装

skillhub install web-fetcher-1776175623

下载

⬇ 下载 web-fetcher v0.1.1(免费)

文件大小: 38.8 KB | 发布时间: 2026-4-15 11:10

v0.1.1 最新 2026-4-15 11:10
Initial release: smart web content fetcher for articles and videos

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
返回顶部