返回顶部
w

website-scraper-pro网页抓取工具

Run a local script to scrape a single web page into clean markdown or deterministic JSON with Crawl4AI. Use when: user needs direct page retrieval from a URL, JS-aware single-page scraping, or deterministic query-focused narrowing without internal AI processing. Invoke by reading this SKILL.md then running: uv run /root/.openclaw/workspace/skills/website-scraper-pro/src/main.py

作者: admin | 来源: ClawHub
源自
ClawHub
版本
V 0.1.0
安全检测
已通过
313
下载量
免费
免费
0
收藏
概述
安装方式
版本历史

website-scraper-pro

技能:Website Scraper Pro

使用场景

  • - 用户需要从特定URL获取单个网页的内容
  • 用户希望从文章、文档页面、博客文章或落地页提取干净的Markdown格式内容
  • 用户需要对依赖客户端渲染的页面进行支持JavaScript的抓取
  • 用户希望在技能内部不使用AI模型的情况下,对单个页面进行确定性的查询聚焦筛选
  • 用户需要包含Markdown、标题、链接和元数据的结构化JSON输出

禁止使用场景

  • - 用户需要进行跨多个来源的广泛网络搜索
  • 用户需要进行全站爬取、递归爬取或多页面提取工作流
  • 用户希望在抓取器内部进行AI摘要、综合或答案生成
  • 用户需要进行经过身份验证的浏览器自动化或交互式表单提交

命令

将页面抓取为Markdown格式

bash
uv run /root/.openclaw/workspace/skills/website-scraper-pro/src/main.py

抓取JavaScript密集型页面

bash
uv run /root/.openclaw/workspace/skills/website-scraper-pro/src/main.py --js

抓取页面并按查询条件筛选

bash
uv run /root/.openclaw/workspace/skills/website-scraper-pro/src/main.py --query <文本>

返回确定性JSON

bash
uv run /root/.openclaw/workspace/skills/website-scraper-pro/src/main.py --format json

示例

bash

默认Markdown抓取


uv run /root/.openclaw/workspace/skills/website-scraper-pro/src/main.py https://example.com

支持JavaScript的抓取

uv run /root/.openclaw/workspace/skills/website-scraper-pro/src/main.py https://example.com --js

查询聚焦检索

uv run /root/.openclaw/workspace/skills/website-scraper-pro/src/main.py https://example.com --query 文档示例

JSON输出

uv run /root/.openclaw/workspace/skills/website-scraper-pro/src/main.py https://example.com --format json

输出

  • - 默认输出为单个页面的干净Markdown格式
  • --query 参数保持输出确定性和非LLM特性
  • --format json 返回确定性JSON,包含 title、url、markdown、links 和 metadata 等字段(如可用)

注意事项

  • - 此v1版本内部不使用AI模型,仅作为确定性检索工具
  • 该技能仅支持单页面操作,不进行深度爬取、站点地图、模式提取或RAG
  • uv run 读取 main.py 中的内联 # /// script 依赖块,并在隔离环境中安装 crawl4ai
  • 如果缺少浏览器设置,请运行一次性设置命令,例如:
- uv run --with crawl4ai crawl4ai-setup - uv run --with crawl4ai python -m playwright install chromium
  • - 当直接提供URL时,请勿对此工作流使用网络搜索
  • 直接按上述方式调用 uv run src/main.py

标签

skill ai

通过对话安装

该技能支持在以下平台通过对话安装:

OpenClaw WorkBuddy QClaw Kimi Claude

方式一:安装 SkillHub 和技能

帮我安装 SkillHub 和 website-scraper-pro-1776164282 技能

方式二:设置 SkillHub 为优先技能安装源

设置 SkillHub 为我的优先技能安装源,然后帮我安装 website-scraper-pro-1776164282 技能

通过命令行安装

skillhub install website-scraper-pro-1776164282

下载

⬇ 下载 website-scraper-pro v0.1.0(免费)

文件大小: 7.84 KB | 发布时间: 2026-4-15 12:19

v0.1.0 最新 2026-4-15 12:19
Initial release of Website Scraper Pro.

- Scrape a single web page into clean markdown or deterministic JSON using Crawl4AI.
- Supports JS-aware scraping for client-side rendered pages.
- Deterministic, query-focused narrowing of content without internal AI processing.
- Outputs either markdown or structured JSON including title, links, and metadata.
- Usage is limited to single-page extraction; no site-wide crawling or web search.

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
返回顶部