返回顶部
o

openclaw-ultra-scraping超强抓取

>

作者: admin | 来源: ClawHub
源自
ClawHub
版本
V 2.0.0
安全检测
已通过
845
下载量
免费
免费
0
收藏
概述
安装方式
版本历史

openclaw-ultra-scraping

OpenClaw Ultra Scraping

MyClaw.ai 提供技术支持——这是一款AI个人助手平台,为每位用户提供拥有完整代码控制的专属服务器。属于 MyClaw开放技能生态系统 的一部分。

处理从单页面提取到大规模并发爬取的一切任务,并具备反机器人绕过功能。

安装

首次使用前运行一次:

bash
bash scripts/setup.sh

此操作将 Scrapling 及所有浏览器依赖安装到 /opt/scrapling-venv 目录。

快速入门 — CLI 脚本

附带的 scripts/scrape.py 提供了统一的命令行接口:

bash
PYTHON=/opt/scrapling-venv/bin/python3

简单抓取(JSON输出)

$PYTHON scripts/scrape.py fetch https://example.com --css .content

提取文本

$PYTHON scripts/scrape.py extract https://example.com --css h1

隐身模式(绕过Cloudflare)

$PYTHON scripts/scrape.py fetch https://protected-site.com --stealth --solve-cloudflare --css .data

动态模式(完整浏览器渲染)

$PYTHON scripts/scrape.py fetch https://spa-site.com --dynamic --css .product

提取链接

$PYTHON scripts/scrape.py links https://example.com --filter \.pdf$

多页面爬取

$PYTHON scripts/scrape.py crawl https://example.com --depth 2 --concurrency 10 --css .item -o results.json

输出格式:json, jsonl, csv, text, markdown, html

$PYTHON scripts/scrape.py fetch https://example.com -f markdown -o page.md

快速入门 — Python

对于复杂任务,可直接使用虚拟环境编写Python代码:

python
#!/opt/scrapling-venv/bin/python3
from scrapling.fetchers import Fetcher, StealthyFetcher

简单HTTP请求

page = Fetcher.get(https://example.com, impersonate=chrome) titles = page.css(h1::text).getall()

绕过Cloudflare

page = StealthyFetcher.fetch(https://protected.com, headless=True, solve_cloudflare=True) data = page.css(.product).getall()

抓取器选择指南

场景抓取器标志
普通网站,快速抓取Fetcher(默认)
JS渲染的SPA应用
DynamicFetcher | --dynamic | | Cloudflare/反机器人保护 | StealthyFetcher | --stealth | | Cloudflare Turnstile验证 | StealthyFetcher | --stealth --solve-cloudflare |

选择器速查表

python
page.css(.class) # CSS选择器
page.css(.class::text).getall() # 文本提取
page.xpath(//div[@id=main]) # XPath
page.findall(div, class=item) # BS4风格
page.findbytext(keyword) # 文本搜索
page.css(.item, adaptive=True) # 自适应(应对页面改版)

高级功能

  • - 自适应追踪:首次运行使用 auto_save=True,后续使用 adaptive=True——即使网站改版也能找到元素
  • 代理轮换:传入 proxy=http://host:port 或使用 ProxyRotator
  • 会话管理:FetcherSession、StealthySession、DynamicSession 用于Cookie/状态持久化
  • 爬虫框架:类似Scrapy的并发爬取,支持暂停/恢复
  • 异步支持:所有抓取器均有异步版本

完整API详情请参阅:references/api-reference.md

标签

skill ai

通过对话安装

该技能支持在以下平台通过对话安装:

OpenClaw WorkBuddy QClaw Kimi Claude

方式一:安装 SkillHub 和技能

帮我安装 SkillHub 和 openclaw-ultra-scraping-1776208096 技能

方式二:设置 SkillHub 为优先技能安装源

设置 SkillHub 为我的优先技能安装源,然后帮我安装 openclaw-ultra-scraping-1776208096 技能

通过命令行安装

skillhub install openclaw-ultra-scraping-1776208096

下载

⬇ 下载 openclaw-ultra-scraping v2.0.0(免费)

文件大小: 8.36 KB | 发布时间: 2026-4-15 11:49

v2.0.0 最新 2026-4-15 11:49
Update ecosystem links to myclaw.ai/skills

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
返回顶部