Crawl4AI Skill - Web Crawler & Scraper

Web Crawling 网页爬虫 | Web Scraping 网页爬取 | LLM 优化输出

智能网页爬虫和爬取工具，支持搜索、全站爬取、动态页面抓取。Free web crawler and scraper with LLM-optimized Markdown output.

核心功能 | Core Features

- 🔍 Web Search 网页搜索 - DuckDuckGo search, 免 API key
🕷️ Web Crawling 网页爬虫 - Site crawler, spider, sitemap 识别
📝 Web Scraping 网页抓取 - Smart scraper, data extraction
📄 LLM-Optimized Output - Fit Markdown, 省 Token 80%
⚡ Dynamic Page Scraping - JavaScript 渲染页面爬取

快速开始 | Quick Start

安装 | Installation

CODEBLOCK0

Web Search | 网页搜索

CODEBLOCK1

Web Scraping | 单页爬取

CODEBLOCK2

Web Crawling | 全站爬虫

CODEBLOCK3

使用场景 | Use Cases

场景 1：Web Crawler for Documentation | 文档站爬虫

CODEBLOCK4

爬虫效果 | Crawler Output:

- ❌ 移除：导航栏、侧边栏、广告
✅ 保留：标题、正文、代码块
📊 Token：50,000 → 10,000（-80%）

场景 2：Search + Scrape | 搜索+爬取

CODEBLOCK5

场景 3：Dynamic Page Scraping | 动态页面抓取

JavaScript 渲染的页面爬取（雪球、知乎等）：

CODEBLOCK6

命令参考 | Commands

命令 Command	说明 Description
INLINECODE0	Web search 网页搜索
INLINECODE1

常用参数 | Common Options

CODEBLOCK7

输出格式 | Output Formats

fit_markdown（推荐 Recommended）

智能提取，节省 80% Token。Smart extraction, save 80% tokens.

CODEBLOCK8

raw_markdown

保留完整结构。Preserve full structure.

CODEBLOCK9

为什么选择这个爬虫？| Why This Crawler?

✅ 免费爬虫 Free Crawler - 无需 API key，开箱即用
✅ 智能爬取 Smart Scraper - 自动去噪，提取核心内容
✅ 全站爬虫 Site Crawler - 支持 sitemap，递归爬取
✅ 动态爬取 Dynamic Scraping - JavaScript 渲染页面支持
✅ 搜索集成 Search Integration - DuckDuckGo 搜索内置

链接 | Links

- 📦 PyPI
💻 GitHub
🦞 ClawHub

Crawl4AI 技能 - 网页爬虫与抓取工具

网页爬虫 | 网页抓取 | LLM 优化输出

智能网页爬虫和抓取工具，支持搜索、全站爬取、动态页面抓取。免费网页爬虫与抓取工具，提供LLM优化的Markdown输出。

核心功能

- 🔍 网页搜索 - DuckDuckGo搜索，无需API密钥
🕷️ 网页爬虫 - 站点爬虫、蜘蛛、站点地图识别
📝 网页抓取 - 智能抓取、数据提取
📄 LLM优化输出 - 适配Markdown，节省80%令牌
⚡ 动态页面抓取 - JavaScript渲染页面爬取

快速开始

安装

bash
pip install crawl4ai-skill

网页搜索

bash

使用DuckDuckGo搜索网络

crawl4ai-skill search python web scraping

单页爬取

bash

抓取单个网页

crawl4ai-skill crawl https://example.com

全站爬虫

bash

爬取整个网站/蜘蛛爬取

crawl4ai-skill crawl-site https://docs.python.org --max-pages 50

使用场景

场景1：文档站爬虫

bash

使用蜘蛛爬取文档站点

crawl4ai-skill crawl-site https://docs.fastapi.com --max-pages 100

爬虫效果：

- ❌ 移除：导航栏、侧边栏、广告
✅ 保留：标题、正文、代码块
📊 令牌：50,000 → 10,000（-80%）

场景2：搜索+爬取

bash

搜索并抓取排名靠前的结果

crawl4ai-skill search-and-crawl Vue 3 best practices --crawl-top 3

场景3：动态页面抓取

JavaScript渲染的页面爬取（雪球、知乎等）：

bash

抓取JavaScript密集型页面

crawl4ai-skill crawl https://xueqiu.com/S/BIDU --wait-until networkidle --delay 2

命令参考

命令	说明
search <query>	网页搜索
crawl <url>

常用参数

bash

网页搜索

--num-results 10 # 结果数量

网页爬取

--format fit_markdown # 输出格式 --output result.md # 输出文件 --wait-until networkidle # 动态页面等待策略 --delay 2 # 额外等待时间（秒） --wait-for .selector # 等待特定元素

全站爬虫

--max-pages 100 # 最大爬取页面数 --max-depth 3 # 最大爬取深度

输出格式

fit_markdown（推荐）

智能提取，节省80%令牌。

bash
crawl4ai-skill crawl https://example.com --format fit_markdown

raw_markdown

保留完整结构。

bash
crawl4ai-skill crawl https://example.com --format raw_markdown

为什么选择这个爬虫？

✅ 免费爬虫 - 无需API密钥，开箱即用
✅ 智能抓取 - 自动去噪，提取核心内容
✅ 全站爬虫 - 支持站点地图，递归爬取
✅ 动态爬取 - 支持JavaScript渲染页面
✅ 搜索集成 - 内置DuckDuckGo搜索

链接

- 📦 PyPI
💻 GitHub
🦞 ClawHub

crawl4ai-skill网页爬虫工具

crawl4ai-skill

Crawl4AI Skill - Web Crawler & Scraper

核心功能 | Core Features

快速开始 | Quick Start

安装 | Installation

Web Search | 网页搜索

Web Scraping | 单页爬取

Web Crawling | 全站爬虫

使用场景 | Use Cases

场景 1：Web Crawler for Documentation | 文档站爬虫

场景 2：Search + Scrape | 搜索+爬取

场景 3：Dynamic Page Scraping | 动态页面抓取

命令参考 | Commands

常用参数 | Common Options

输出格式 | Output Formats

fit_markdown（推荐 Recommended）

raw_markdown

为什么选择这个爬虫？| Why This Crawler?

链接 | Links

Crawl4AI 技能 - 网页爬虫与抓取工具

核心功能

快速开始

安装

网页搜索

使用DuckDuckGo搜索网络

单页爬取

抓取单个网页

全站爬虫

爬取整个网站/蜘蛛爬取

使用场景

场景1：文档站爬虫

使用蜘蛛爬取文档站点

场景2：搜索+爬取

搜索并抓取排名靠前的结果

场景3：动态页面抓取

抓取JavaScript密集型页面

命令参考

常用参数

网页搜索

网页爬取

全站爬虫

输出格式

fit_markdown（推荐）

raw_markdown

为什么选择这个爬虫？

链接

标签

通过对话安装

方式一：安装 SkillHub 和技能

方式二：设置 SkillHub 为优先技能安装源

通过命令行安装

下载

相关推荐

self-improvement

self-improvement

self-improvement

self-improvement