返回顶部
w

web-reader-pro网页阅读专家

Advanced web content extraction skill for OpenClaw using multi-tier fallback strategy (Jina → Scrapling → WebFetch) with intelligent routing, caching, quality scoring, and domain learning. Use when: reading article content, extracting web page text, scraping dynamic JS-heavy pages, or fetching WeChat official account articles.

作者: admin | 来源: ClawHub
源自
ClawHub
版本
V 1.0.0
安全检测
已通过
94
下载量
免费
免费
2
收藏
概述
安装方式
版本历史

web-reader-pro

Web Reader Pro - OpenClaw 技能

概述

Web Reader Pro 是 OpenClaw 的高级网页内容提取技能,采用多层回退策略,具备智能路由、缓存和质量评估功能。

特性

1. 三层回退策略

  • - 第一层:Jina Reader API - 快速可靠,适用于大多数网站
  • 第二层:Scrapling + Playwright - 为重度 JS 网站提供动态内容渲染
  • 第三层:WebFetch 回退 - 适用于简单页面的基础提取

2. Jina 配额监控

  • - 使用持久计数器跟踪 API 调用次数
  • 接近配额限制时发出警告
  • 配额耗尽时自动回退到较低层级方法

3. 智能缓存层

  • - 短期缓存(可配置 TTL,默认 1 小时)
  • 基于 URL 哈希的缓存键
  • 减少冗余 API 调用

4. 提取质量评分

  • - 基于以下指标评分:字数、标题检测、内容密度
  • 最低质量阈值(默认:200 字 + 有效标题)
  • 质量低于阈值时自动升级到下一层级

5. 域名级路由学习

  • - 学习每个域名的最佳提取层级
  • 将学习到的路由持久化到本地 JSON 数据库
  • 基于历史成功率自适应调整

6. 指数退避重试

  • - 每层可配置最大重试次数(默认:3)
  • 指数退避:1秒、2秒、4秒、8秒...
  • 尊重速率限制并处理临时故障

安装

bash

安装依赖


pip install -r requirements.txt

安装 Scrapling(需要 Node.js)

./scripts/install_scrapling.sh

或手动安装 Scrapling

npm install -g @scrapinghub/scrapling

使用

基本用法

python
from scripts.webreaderpro import WebReaderPro

reader = WebReaderPro()
result = reader.fetch(https://example.com)
print(result[title])
print(result[content])

高级配置

python
reader = WebReaderPro(
jinaapikey=your-jina-key, # 可选:通过环境变量 JINAAPIKEY 设置
cache_ttl=3600, # 缓存 TTL(秒),默认:3600
quality_threshold=200, # 质量最低字数,默认:200
max_retries=3, # 每层最大重试次数,默认:3
enable_learning=True, # 启用域名学习,默认:True
scrapling_path=/usr/local/bin/scrapling # scrapling 二进制文件路径
)

结果格式

python
{
title: 页面标题,
content: 以 Markdown 格式提取的内容...,
url: https://example.com,
tier_used: jina|scrapling|webfetch,
quality_score: 85,
cached: False,
domainlearnedtier: jina,
extracted_at: 2024-01-01T00:00:00Z
}

环境变量

变量描述默认值
JINAAPIKEYJina Reader API 密钥第一层必需
WEBREADERCACHE_DIR
缓存目录路径 | ~/.openclaw/cache/web-reader-pro/ | | WEBREADERLEARNING_DB | 学习数据库路径 | ~/.openclaw/data/web-reader-pro/routes.json | | WEBREADERJINA_QUOTA | Jina 配额限制 | 100000 |

API 参考

WebReaderPro.fetch(url, force_refresh=False)

从 URL 获取并提取内容。

参数:

  • - url (str):目标 URL
  • force_refresh (bool):如果为 True,则绕过缓存

返回: 包含标题、内容、元数据的字典

WebReaderPro.fetchwithtier(url, preferred_tier)

使用特定层级获取内容(绕过自动选择)。

参数:

  • - url (str):目标 URL
  • preferred_tier (str):jina、scrapling 或 webfetch

WebReaderPro.getjinastatus()

获取当前 Jina API 配额使用情况。

返回: 包含计数、限制、百分比、警告的字典

WebReaderPro.clear_cache(url=None)

清除特定 URL 或所有 URL 的缓存。

参数:

  • - url (str, 可选):要清除的特定 URL,或为 None 清除所有

WebReaderPro.getdomainroutes()

获取已学习的域名到层级的映射。

返回: 域名 -> 首选层级的字典

层级对比

层级速度JS 渲染最佳适用场景成本
Jina静态页面、文章API 调用
Scrapling
中等 | 是 | 单页应用、动态内容 | CPU | | WebFetch | 最快 | 否 | 简单页面、回退 | 免费 |

许可证

MIT

标签

skill ai

通过对话安装

该技能支持在以下平台通过对话安装:

OpenClaw WorkBuddy QClaw Kimi Claude

方式一:安装 SkillHub 和技能

帮我安装 SkillHub 和 web-reader-pro-1776056792 技能

方式二:设置 SkillHub 为优先技能安装源

设置 SkillHub 为我的优先技能安装源,然后帮我安装 web-reader-pro-1776056792 技能

通过命令行安装

skillhub install web-reader-pro-1776056792

下载

⬇ 下载 web-reader-pro v1.0.0(免费)

文件大小: 14.2 KB | 发布时间: 2026-4-14 13:48

v1.0.0 最新 2026-4-14 13:48
Initial release

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
返回顶部