Proxy Web Page Fetch
Fetch and parse web page content via the OpenClaw Manager Web Fetch Proxy. The Manager handles API key injection from encrypted storage automatically — no manual key configuration needed.
The proxy URL is configured via the WEB_FETCH_PROXY_URL environment variable (required). If not set, the skill will not be available.
Quick Start
Basic cURL Usage
CODEBLOCK0
Script Usage
A wrapper shell script is provided for convenience.
CODEBLOCK1
Authentication
No authentication required — the proxy reads API keys internally from the Manager's encrypted secrets store.
API Parameter Reference
| Parameter | Type | Required | Default | Description |
|---|
| INLINECODE1 | string | ✅ | - | URL of the web page to fetch |
| INLINECODE2 |
integer | - |
20 | Request timeout in seconds |
|
no_cache | boolean | - |
false | Disable caching (
true/
false) |
|
return_format | string | - |
markdown | Return format:
markdown or
text |
|
retain_images | boolean | - |
true | Retain images in output (
true/
false) |
|
no_gfm | boolean | - |
false | Disable GitHub Flavored Markdown (
true/
false) |
|
keep_img_data_url | boolean | - |
false | Keep image data URLs (
true/
false) |
|
with_images_summary | boolean | - |
false | Include images summary (
true/
false) |
|
with_links_summary | boolean | - |
false | Include links summary (
true/
false) |
Response Structure
The proxy returns JSON with the parsed page content.
CODEBLOCK2
Key Response Fields
| Field | Description |
|---|
| INLINECODE32 | Main parsed content (body text, images, links) |
| INLINECODE33 |
Page title |
|
reader_result.description | Brief page description |
|
reader_result.url | Original page URL |
|
reader_result.metadata | Page metadata (keywords, viewport, etc.) |
Common Use Cases
| Scenario | Command |
|---|
| Read a documentation page | INLINECODE37 |
| Extract text only (no images) |
--url <url> --no-images --format text |
| Force fresh fetch (bypass cache) |
--url <url> --no-cache |
| Get content with all summaries |
--url <url> --images-summary --links-summary |
| Long page with extended timeout |
--url <url> --timeout 60 |
Environment Requirements
- - OpenClaw Manager must be running with the Web Fetch Proxy enabled.
- INLINECODE42 environment variable must be set to the proxy URL (required, no default).
- INLINECODE43 command must be available in your system path.
代理网页抓取
通过OpenClaw管理器网页抓取代理获取并解析网页内容。管理器会自动从加密存储中注入API密钥——无需手动配置密钥。
代理URL通过WEBFETCHPROXY_URL环境变量配置(必需)。如果未设置,该技能将不可用。
快速开始
基本cURL用法
bash
curl --request POST \
--url ${WEBFETCHPROXY_URL}/ \
--header Content-Type: application/json \
--data {
url: https://www.example.com
}
脚本用法
提供便捷的封装shell脚本。
bash
基本抓取(默认返回Markdown格式)
./scripts/proxy_fetch.sh --url https://www.example.com
以纯文本格式抓取,不使用缓存
./scripts/proxy_fetch.sh \
--url https://docs.python.org/3/ \
--format text \
--no-cache
抓取并包含图片和链接摘要
./scripts/proxy_fetch.sh \
--url https://news.example.com/article \
--images-summary \
--links-summary
抓取时不包含图片,禁用GFM
./scripts/proxy_fetch.sh \
--url https://blog.example.com/post \
--no-images \
--no-gfm
身份验证
无需身份验证——代理会从管理器的加密密钥存储中内部读取API密钥。
API参数参考
| 参数 | 类型 | 必需 | 默认值 | 描述 |
|---|
| url | 字符串 | ✅ | - | 要抓取的网页URL |
| timeout |
整数 | - | 20 | 请求超时时间(秒) |
| no_cache | 布尔值 | - | false | 禁用缓存(true/false) |
| return_format | 字符串 | - | markdown | 返回格式:markdown或text |
| retain_images | 布尔值 | - | true | 在输出中保留图片(true/false) |
| no_gfm | 布尔值 | - | false | 禁用GitHub风格的Markdown(true/false) |
| keep
imgdata_url | 布尔值 | - | false | 保留图片数据URL(true/false) |
| with
imagessummary | 布尔值 | - | false | 包含图片摘要(true/false) |
| with
linkssummary | 布尔值 | - | false | 包含链接摘要(true/false) |
响应结构
代理返回包含解析后页面内容的JSON。
json
{
id: 任务ID,
created: 1704067200,
request_id: 请求ID,
model: 模型名称,
reader_result: {
title: 页面标题,
description: 页面简要描述,
url: https://www.example.com,
content: 解析后的页面内容(Markdown或文本),
external: {
stylesheet: {}
},
metadata: {
keywords: 页面, 关键词,
viewport: width=device-width,
description: 元描述,
format-detection: telephone=no
}
}
}
关键响应字段
| 字段 | 描述 |
|---|
| readerresult.content | 主要解析内容(正文、图片、链接) |
| readerresult.title |
页面标题 |
| reader_result.description | 页面简要描述 |
| reader_result.url | 原始页面URL |
| reader_result.metadata | 页面元数据(关键词、视口等) |
常见用例
| 场景 | 命令 |
|---|
| 阅读文档页面 | --url <文档URL> |
| 仅提取文本(无图片) |
--url
--no-images --format text |
| 强制刷新抓取(绕过缓存) | --url --no-cache |
| 获取包含所有摘要的内容 | --url --images-summary --links-summary |
| 长页面使用延长超时 | --url --timeout 60 |
环境要求
- - OpenClaw管理器必须运行并启用网页抓取代理。
- 必须设置WEBFETCHPROXY_URL环境变量为代理URL(必需,无默认值)。
- 系统路径中必须可用curl命令。