Scrapling Web Fetch
当用户要获取网页内容、正文提取、把网页转成 markdown/text、抓取文章主体时,优先使用此技能。
默认流程
- 1. 使用 INLINECODE0
- 默认正文选择器优先级:
-
article
-
main
-
.post-content
-
[class*="body"]
- 3. 命中正文后,使用
html2text 转 Markdown - 若都未命中,回退到 INLINECODE6
- 最终按
max_chars 截断输出
用法
CODEBLOCK0
依赖
优先检查:
若缺失,可安装:
CODEBLOCK1
输出约定
脚本默认输出 Markdown 正文内容。
如需结构化输出,可追加
--json。
如需调试提取命中了哪个 selector,可查看 stderr 输出。
附加资源
- - 用法参考: INLINECODE11
- 选择器策略: INLINECODE12
- 统一入口: INLINECODE13
何时用这个技能
- - 获取文章正文
- 抓博客/新闻/公告正文
- 将网页转成 Markdown 供后续总结
- 常规 fetch 效果差,希望提升现代网页抓取稳定性
何时不用
- - 需要完整浏览器交互、点击、登录、翻页时:改用浏览器自动化
- 只是简单获取 API JSON:直接请求 API 更合适
Scrapling Web Fetch
当用户需要获取网页内容、提取正文、将网页转换为Markdown/文本、抓取文章主体时,优先使用此技能。
默认流程
- 1. 使用 python3 scripts/scraplingfetch.py chars>
- 默认正文选择器优先级:
- article
- main
- .post-content
- [class*=body]
- 3. 命中正文后,使用 html2text 转换为Markdown
- 若均未命中,回退到 body
- 最终按 max_chars 截断输出
用法
bash
python3 /Users/zzd/.openclaw/workspace/skills/scrapling-web-fetch/scripts/scrapling_fetch.py
30000
依赖
优先检查:
若缺失,可安装:
bash
python3 -m pip install scrapling html2text
输出约定
脚本默认输出Markdown正文内容。
如需结构化输出,可追加 --json。
如需调试提取命中了哪个选择器,可查看stderr输出。
附加资源
- - 用法参考:/Users/zzd/.openclaw/workspace/skills/scrapling-web-fetch/references/usage.md
- 选择器策略:/Users/zzd/.openclaw/workspace/skills/scrapling-web-fetch/references/selectors.md
- 统一入口:/Users/zzd/.openclaw/workspace/skills/scrapling-web-fetch/scripts/fetch-web-content
何时使用此技能
- - 获取文章正文
- 抓取博客/新闻/公告正文
- 将网页转换为Markdown供后续总结
- 常规fetch效果不佳,希望提升现代网页抓取稳定性
何时不使用
- - 需要完整的浏览器交互、点击、登录、翻页时:改用浏览器自动化
- 仅需简单获取API JSON:直接请求API更为合适