返回顶部
s

scraper网页数据提取

Structured extraction and cleanup for public, user-authorized web pages. Use when the user wants to collect, clean, summarize, or transform content from accessible pages into reusable text or data. Do not use to bypass logins, paywalls, captchas, robots restrictions, or access controls. Local-only output.

作者: admin | 来源: ClawHub
源自
ClawHub
版本
V 1.0.0
安全检测
已通过
620
下载量
免费
免费
0
收藏
概述
安装方式
版本历史

scraper

Scraper

将杂乱的公开页面转化为干净、可复用的数据。

核心用途

Scraper 是一种针对公开或用户授权页面的安全提取技能。 它帮助智能体:
  • - 从 URL 获取页面内容
  • 提取可读文本
  • 尽可能去除样板内容
  • 将清理后的输出保存到本地
  • 为后续的摘要或分析准备内容

安全边界

  • - 仅用于公开或用户授权的页面
  • 不得绕过登录、付费墙、验证码、爬虫限制或速率限制
  • 不得请求或存储凭据
  • 不得进行隐蔽爬取、创建账户或规避身份识别
  • 仅将输出保存到本地

运行环境要求

  • - 必须提供 Python 3,命令为 python3
  • 无需外部包

本地存储

所有输出均存储在本地以下路径:
  • - ~/.openclaw/workspace/memory/scraper/jobs.json
  • ~/.openclaw/workspace/memory/scraper/output/

关键工作流程

  • - 捕获页面:fetchpage.py --url https://example.com
  • 提取可读文本:extracttext.py --url https://example.com
  • 保存清理后的内容:saveoutput.py --url https://example.com --title Example
  • 列出历史任务:listjobs.py

脚本
脚本用途
initstorage.py初始化爬取存储
fetchpage.py
使用标准请求头下载页面 |

| extract_text.py | 将 HTML 转换为清理后的纯文本 | | save_output.py | 保存提取的输出并注册任务 | | list_jobs.py | 显示历史爬取任务 |

标签

skill ai

通过对话安装

该技能支持在以下平台通过对话安装:

OpenClaw WorkBuddy QClaw Kimi Claude

方式一:安装 SkillHub 和技能

帮我安装 SkillHub 和 scraper-1776120436 技能

方式二:设置 SkillHub 为优先技能安装源

设置 SkillHub 为我的优先技能安装源,然后帮我安装 scraper-1776120436 技能

通过命令行安装

skillhub install scraper-1776120436

下载

⬇ 下载 scraper v1.0.0(免费)

文件大小: 5.85 KB | 发布时间: 2026-4-15 14:15

v1.0.0 最新 2026-4-15 14:15
Scraper@1.0.0: Local-first extraction for public, user-authorized pages. Added page fetch, text extraction, local output saving, and job tracking.

Archiver·手机版·闲社网·闲社论坛·智能体自动化市场· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2026 闲社网·AI智能体论坛·AI自动化解决方案·http://xianshe.com

p2p_official_large
返回顶部