返回顶部
p

proxy-web-fetch代理网页抓取

|

作者: admin | 来源: ClawHub
源自
ClawHub
版本
V 1.0.0
安全检测
已通过
244
下载量
免费
免费
0
收藏
概述
安装方式
版本历史

proxy-web-fetch

代理网页抓取

通过OpenClaw管理器网页抓取代理获取并解析网页内容。管理器会自动从加密存储中注入API密钥——无需手动配置密钥。

代理URL通过WEBFETCHPROXY_URL环境变量配置(必需)。如果未设置,该技能将不可用。

快速开始

基本cURL用法

bash
curl --request POST \
--url ${WEBFETCHPROXY_URL}/ \
--header Content-Type: application/json \
--data {
url: https://www.example.com
}

脚本用法

提供便捷的封装shell脚本。

bash

基本抓取(默认返回Markdown格式)


./scripts/proxy_fetch.sh --url https://www.example.com

以纯文本格式抓取,不使用缓存

./scripts/proxy_fetch.sh \ --url https://docs.python.org/3/ \ --format text \ --no-cache

抓取并包含图片和链接摘要

./scripts/proxy_fetch.sh \ --url https://news.example.com/article \ --images-summary \ --links-summary

抓取时不包含图片,禁用GFM

./scripts/proxy_fetch.sh \ --url https://blog.example.com/post \ --no-images \ --no-gfm

身份验证

无需身份验证——代理会从管理器的加密密钥存储中内部读取API密钥。

API参数参考

参数类型必需默认值描述
url字符串-要抓取的网页URL
timeout
整数 | - | 20 | 请求超时时间(秒) | | no_cache | 布尔值 | - | false | 禁用缓存(true/false) | | return_format | 字符串 | - | markdown | 返回格式:markdown或text | | retain_images | 布尔值 | - | true | 在输出中保留图片(true/false) | | no_gfm | 布尔值 | - | false | 禁用GitHub风格的Markdown(true/false) | | keepimgdata_url | 布尔值 | - | false | 保留图片数据URL(true/false) | | withimagessummary | 布尔值 | - | false | 包含图片摘要(true/false) | | withlinkssummary | 布尔值 | - | false | 包含链接摘要(true/false) |

响应结构

代理返回包含解析后页面内容的JSON。

json
{
id: 任务ID,
created: 1704067200,
request_id: 请求ID,
model: 模型名称,
reader_result: {
title: 页面标题,
description: 页面简要描述,
url: https://www.example.com,
content: 解析后的页面内容(Markdown或文本),
external: {
stylesheet: {}
},
metadata: {
keywords: 页面, 关键词,
viewport: width=device-width,
description: 元描述,
format-detection: telephone=no
}
}
}

关键响应字段

字段描述
readerresult.content主要解析内容(正文、图片、链接)
readerresult.title
页面标题 | | reader_result.description | 页面简要描述 | | reader_result.url | 原始页面URL | | reader_result.metadata | 页面元数据(关键词、视口等) |

常见用例

场景命令
阅读文档页面--url <文档URL>
仅提取文本(无图片)
--url --no-images --format text | | 强制刷新抓取(绕过缓存) | --url --no-cache | | 获取包含所有摘要的内容 | --url --images-summary --links-summary | | 长页面使用延长超时 | --url --timeout 60 |

环境要求

  • - OpenClaw管理器必须运行并启用网页抓取代理。
  • 必须设置WEBFETCHPROXY_URL环境变量为代理URL(必需,无默认值)。
  • 系统路径中必须可用curl命令。

标签

skill ai

通过对话安装

该技能支持在以下平台通过对话安装:

OpenClaw WorkBuddy QClaw Kimi Claude

方式一:安装 SkillHub 和技能

帮我安装 SkillHub 和 proxy-web-fetch-1776099663 技能

方式二:设置 SkillHub 为优先技能安装源

设置 SkillHub 为我的优先技能安装源,然后帮我安装 proxy-web-fetch-1776099663 技能

通过命令行安装

skillhub install proxy-web-fetch-1776099663

下载

⬇ 下载 proxy-web-fetch v1.0.0(免费)

文件大小: 3.78 KB | 发布时间: 2026-4-15 14:02

v1.0.0 最新 2026-4-15 14:02
Initial release of the Proxy Web Page Fetch Tool.

- Fetches and parses web page content to Markdown or plain text via the OpenClaw Manager proxy.
- Supports options for caching, image retention, page summaries, and metadata extraction.
- No manual API key configuration needed; authentication handled internally by the Manager.
- Configurable via the required `WEB_FETCH_PROXY_URL` environment variable.
- Includes a handy shell script for command-line usage and various fetch scenarios.

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
返回顶部