Crawl4AI Skill - Web Crawler & Scraper
Web Crawling 网页爬虫 | Web Scraping 网页爬取 | LLM 优化输出
智能网页爬虫和爬取工具,支持搜索、全站爬取、动态页面抓取。Free web crawler and scraper with LLM-optimized Markdown output.
核心功能 | Core Features
- - 🔍 Web Search 网页搜索 - DuckDuckGo search, 免 API key
- 🕷️ Web Crawling 网页爬虫 - Site crawler, spider, sitemap 识别
- 📝 Web Scraping 网页抓取 - Smart scraper, data extraction
- 📄 LLM-Optimized Output - Fit Markdown, 省 Token 80%
- ⚡ Dynamic Page Scraping - JavaScript 渲染页面爬取
快速开始 | Quick Start
安装 | Installation
CODEBLOCK0
Web Search | 网页搜索
CODEBLOCK1
Web Scraping | 单页爬取
CODEBLOCK2
Web Crawling | 全站爬虫
CODEBLOCK3
使用场景 | Use Cases
场景 1:Web Crawler for Documentation | 文档站爬虫
CODEBLOCK4
爬虫效果 | Crawler Output:
- - ❌ 移除:导航栏、侧边栏、广告
- ✅ 保留:标题、正文、代码块
- 📊 Token:50,000 → 10,000(-80%)
场景 2:Search + Scrape | 搜索+爬取
CODEBLOCK5
场景 3:Dynamic Page Scraping | 动态页面抓取
JavaScript 渲染的页面爬取(雪球、知乎等):
CODEBLOCK6
命令参考 | Commands
| 命令 Command | 说明 Description |
|---|
| INLINECODE0 | Web search 网页搜索 |
| INLINECODE1 |
Web scraping 单页爬取 |
|
crawl-site <url> | Web crawling 全站爬虫 |
|
search-and-crawl <query> | Search + scrape 搜索并爬取 |
常用参数 | Common Options
CODEBLOCK7
输出格式 | Output Formats
fit_markdown(推荐 Recommended)
智能提取,节省 80% Token。Smart extraction, save 80% tokens.
CODEBLOCK8
raw_markdown
保留完整结构。Preserve full structure.
CODEBLOCK9
为什么选择这个爬虫?| Why This Crawler?
✅ 免费爬虫 Free Crawler - 无需 API key,开箱即用
✅ 智能爬取 Smart Scraper - 自动去噪,提取核心内容
✅ 全站爬虫 Site Crawler - 支持 sitemap,递归爬取
✅ 动态爬取 Dynamic Scraping - JavaScript 渲染页面支持
✅ 搜索集成 Search Integration - DuckDuckGo 搜索内置
链接 | Links
Crawl4AI 技能 - 网页爬虫与抓取工具
网页爬虫 | 网页抓取 | LLM 优化输出
智能网页爬虫和抓取工具,支持搜索、全站爬取、动态页面抓取。免费网页爬虫与抓取工具,提供LLM优化的Markdown输出。
核心功能
- - 🔍 网页搜索 - DuckDuckGo搜索,无需API密钥
- 🕷️ 网页爬虫 - 站点爬虫、蜘蛛、站点地图识别
- 📝 网页抓取 - 智能抓取、数据提取
- 📄 LLM优化输出 - 适配Markdown,节省80%令牌
- ⚡ 动态页面抓取 - JavaScript渲染页面爬取
快速开始
安装
bash
pip install crawl4ai-skill
网页搜索
bash
使用DuckDuckGo搜索网络
crawl4ai-skill search python web scraping
单页爬取
bash
抓取单个网页
crawl4ai-skill crawl https://example.com
全站爬虫
bash
爬取整个网站/蜘蛛爬取
crawl4ai-skill crawl-site https://docs.python.org --max-pages 50
使用场景
场景1:文档站爬虫
bash
使用蜘蛛爬取文档站点
crawl4ai-skill crawl-site https://docs.fastapi.com --max-pages 100
爬虫效果:
- - ❌ 移除:导航栏、侧边栏、广告
- ✅ 保留:标题、正文、代码块
- 📊 令牌:50,000 → 10,000(-80%)
场景2:搜索+爬取
bash
搜索并抓取排名靠前的结果
crawl4ai-skill search-and-crawl Vue 3 best practices --crawl-top 3
场景3:动态页面抓取
JavaScript渲染的页面爬取(雪球、知乎等):
bash
抓取JavaScript密集型页面
crawl4ai-skill crawl https://xueqiu.com/S/BIDU --wait-until networkidle --delay 2
命令参考
| 命令 | 说明 |
|---|
| search <query> | 网页搜索 |
| crawl <url> |
单页爬取 |
| crawl-site
| 全站爬虫 |
| search-and-crawl | 搜索并爬取 |
常用参数
bash
网页搜索
--num-results 10 # 结果数量
网页爬取
--format fit_markdown # 输出格式
--output result.md # 输出文件
--wait-until networkidle # 动态页面等待策略
--delay 2 # 额外等待时间(秒)
--wait-for .selector # 等待特定元素
全站爬虫
--max-pages 100 # 最大爬取页面数
--max-depth 3 # 最大爬取深度
输出格式
fit_markdown(推荐)
智能提取,节省80%令牌。
bash
crawl4ai-skill crawl https://example.com --format fit_markdown
raw_markdown
保留完整结构。
bash
crawl4ai-skill crawl https://example.com --format raw_markdown
为什么选择这个爬虫?
✅ 免费爬虫 - 无需API密钥,开箱即用
✅ 智能抓取 - 自动去噪,提取核心内容
✅ 全站爬虫 - 支持站点地图,递归爬取
✅ 动态爬取 - 支持JavaScript渲染页面
✅ 搜索集成 - 内置DuckDuckGo搜索
链接