web-fetcher
# 网页抓取
当需要获取网页内容时,按以下顺序尝试:
## 首选方案:URL 转 Markdown 服务
1. **markdown.new/** (推荐)
- 用法:在网址前加 `https://markdown.new/`
- 例如:`https://markdown.new/https://example.com`
- 适合 Cloudflare 支持的网站
2. **r.jina.ai/** (备用)
- 用法:在网址前加 `https://r.jina.ai/`
- 例如:`https://r.jina.ai/https://example.com`
- 兼容性好
3. **defuddle.md/** (备用)
- 用法:在网址前加 `https://defuddle.md/`
- 例如:`https://defuddle.md/https://example.com`
## 备选方案:爬虫工具
如果以上服务都无法获取,尝试 Scrapling:
- 地址:https://github.com/D4Vinci/Scrapling
- 用法:`pip install scrapling` 后使用
## 使用流程
1. 先尝试 `r.jina.ai/{url}` (最稳定)
2. 如果失败,尝试 `markdown.new/{url}`
3. 再失败,尝试 `defuddle.md/{url}`
4. 都失败再考虑 Scrapling
## 注意事项
- 不需要配置任何搜索 API
- 这些服务会将网页转换为纯文本/ Markdown 格式
- 适合大多数静态网页
- 对于需要登录的页面可能无效
标签
skill
ai