返回顶部
w

web-collection网页采集插件

Browser plugin data collection via a local bridge or cloud dispatch to a connected local connector, in strict synchronous closed-loop mode. Cloud mode includes async command-result querying. Use for Douyin, TikTok, Xiaohongshu, Amazon, and Bilibili collection tasks.

作者: admin | 来源: ClawHub
源自
ClawHub
版本
V 1.2.3
安全检测
已通过
584
下载量
免费
免费
0
收藏
概述
安装方式
版本历史

web-collection

网页采集

使用此技能完成以下平台的浏览器扩展采集任务:

  • - 抖音
  • TikTok
  • 小红书
  • 亚马逊
  • 哔哩哔哩

人工教程

本技能以实现为导向。如需终端用户入门指南和分步人工操作说明,请使用:

  • - https://vcn5grhrq8y0.feishu.cn/wiki/BGUhwC0cKimwTJkXDSuc0YFBnib

当用户询问如何使用或需要UI级操作指导时,优先使用本教程,并保持回复与其措辞一致。

核心规则

  1. 1. 使用用户正常的Chrome环境,而非隔离的openclaw浏览器配置文件。
  2. 优先使用连接器流程而非通用浏览器工具。
  3. 默认采用同步闭环执行。
  4. 采集脚本完成前不进行回复。
  5. 首先选择一种执行模式:
- local:直接与本地桥接通信 - cloud:调用云端连接器分发API,该API会转发至用户已连接的本地连接器
  1. 6. 在cloud模式下,不重写采集负载。仅将其包裹在以下结构中:
- device_id - action - payload

首次设置

本技能使用一个偏好文件:

$OPENCLAWSTATEDIR/skill-state/web-collection/preferences.json

备用路径:

$HOME/.openclaw/skill-state/web-collection/preferences.json

辅助脚本:

bash
{baseDir}/scripts/export_preference.sh show
{baseDir}/scripts/export_preference.sh check
{baseDir}/scripts/export_preference.sh apply-recommended
{baseDir}/scripts/export_preference.sh set-key defaultConnectionMode cloud
{baseDir}/scripts/export_preference.sh set-key defaultCloudDeviceId desktop-local-smoke-fix
{baseDir}/scripts/exportpreference.sh set-key defaultCloudToken api_key>
{baseDir}/scripts/export_preference.sh set-key defaultExportMode csv

必需的默认配置:

  • - defaultExportMode
  • defaultMaxItems
  • defaultFetchDetail
  • defaultDetailSpeed

特定模式的默认配置:

  • - local
- 如果默认本地桥接URL可用,则无需额外必需键
  • - cloud
- 云端基础URL默认固定为https://i-sync.cn - defaultCloudDeviceId - defaultCloudToken

run.sh强制执行此规则。如果这些配置不完整,采集不得启动。

首次运行流程

首次使用时:

  1. 1. 首先确定执行模式:
- local - cloud
  1. 2. 如果模式为cloud,先收集以下值:
- defaultCloudDeviceId - defaultCloudToken - 云端URL固定,无需用户输入
  1. 3. 然后处理通用默认配置:
- 导出方式 - 默认采集条数 - 是否默认采集详情 - 默认采集速度
  1. 4. 针对通用默认配置只问一个问题:
- 推荐配置 - 自己配置
  1. 5. 如果用户选择推荐配置,运行:

bash
{baseDir}/scripts/export_preference.sh apply-recommended

  1. 6. 如果用户选择自己配置,一次性询问所有四个值,而非逐个询问。
  2. 仅当check通过后才继续。

推荐模式提示:

text
第一次使用网页采集,需要先确认运行环境。
请选择:

  • - 本地
  • 云端

[[quick_replies: 本地, 云端]]

推荐云端提示:

text
检测到你要走云端分发,还需要这两个配置:

  • - device_id
  • API token

请一次性发给我。

通用默认配置的推荐快速回复提示:

text
常用配置还需要确认一次。
这些配置包括:

  • - 导出方式
  • 默认采集条数
  • 是否默认采集详情
  • 默认采集速度

你可以直接用推荐配置,也可以自己配置。
[[quick_replies: 推荐配置, 自己配置]]

推荐自定义配置提示:

text
好,我们一次性把默认配置定好。请直接按下面格式回复:

导出方式:CSV / 多维表格
默认采集条数:10 / 20 / 50 / 100
是否默认采集详情:是 / 否
默认采集速度:fast / medium / slow

说明:

  • - 多维表格:适合查看、筛选、分享
  • CSV:适合本地保存
  • 采集详情:开启后结果更完整,但一般更慢
  • 采集速度:推荐 fast

推荐默认值:

  • - 运行位置:local
  • 导出方式:多维表格
  • 采集条数:20
  • 采集详情:true
  • 采集速度:fast

云端模式

当采集请求应先发送至平台后端,再分发给用户已连接的本地连接器时,使用cloud模式。

云端职责:

  • - 调用/api/v1/connector/cloud/dispatch
  • 使用Authorization: Bearer apikey>进行身份验证
  • 包含device_id
  • 在payload内保持采集主体不变
  • 在分发前强制执行严格的云端负载模板,以避免字段缺失
- 缺失时的默认回退值:maxItems=20、mode=search、interval=300、fetchDetail=true、detailSpeed=fast
  • - 轮询/api/v1/connector/cloud/commands/{commandid}以获取最终状态和结果
  • 如果单命令查询不可用,回退至/api/v1/connector/cloud/commands?deviceid=...
  • 将result和task_updates视为完成快照的来源

禁止:

  • - 从云端路径调用用户本地的19820端口
  • 重写payload语义
  • 将本地管理员令牌逻辑混入云端请求

连接器命令阶梯

当采集失败、参数不完整或状态不明确时,按此顺序运行连接器检查,而非猜测。

第一层:能力

  • - GET /api/help
  • GET /api/routes
  • GET /api/filters(或按平台/方法限定范围)

第二层:诊断

  • - GET /api/status
  • GET /api/platform-state
  • GET /api/cloud/status
  • POST /api/preflight(使用最终请求体)

第三层:执行与跟踪

  • - POST /api/collect
  • GET /api/tasks/:id(本地模式)
  • GET /api/v1/connector/cloud/commands/{commandid}(云端模式,推荐)
  • GET /api/v1/connector/cloud/commands?deviceid=...(云端回退)
  • POST /api/stop或POST /api/reset(卡住时)

本地命令模板(需要管理员令牌):

bash
TOKEN=$(cat ~/.meixi-connector/bridge-admin-token.txt)
curl -s -H x-connector-admin-token: $TOKEN http://127.0.0.1:19820/api/status

云端命令模板(异步结果):

bash
curl -s -H Authorization: Bearer orapi_key> \
https://i-sync.cn/api/v1/connector/cloud/commands/

导出行为

  • - bitable
- 使用--export-target bitable运行 - 成功时预期export.tableUrl
  • - csv
- 使用--export-target csv运行 - 最终回复中不需要表格链接

入口点

推荐的包装器:

bash
bash {baseDir}/scripts/run.sh ...

包装器:

  • - 应用存储的偏好设置
  • 强制执行必需的设置
  • 运行本地桥接模式或云端分发模式
  • 优先使用连接器仓库的实际本地桥接循环(可用时)
  • 仅在必要时回退至捆绑的本地循环

常用命令

抖音关键词搜索:

bash
bash {baseDir}/scripts/run.sh \
--platform douyin \
--keyword AI \
--ensure-bridge

通过云端分发进行抖音关键词搜索:

bash
bash {baseDir}/scripts/run.sh \
--connection-mode cloud \
--cloud-device-id desktop-local-smoke-fix \
--cloud-token apikey> \
--platform douyin \
--keyword AI员工

亚马逊关键词搜索:

bash
bash {baseDir}/scripts/run.sh \
--platform amazon \
--keyword Chinese porcelain \
--ensure-bridge

哔哩哔哩关键词搜索:

bash
bash {baseDir}/scripts/run.sh \
--platform bilibili \
--keyword 古董 \
--ensure-bridge

平台默认值

包装器默认值:

  • - douyin => videoKeyword
  • tiktok => keywordSearch
-

标签

skill ai

通过对话安装

该技能支持在以下平台通过对话安装:

OpenClaw WorkBuddy QClaw Kimi Claude

方式一:安装 SkillHub 和技能

帮我安装 SkillHub 和 web-collection-1776190038 技能

方式二:设置 SkillHub 为优先技能安装源

设置 SkillHub 为我的优先技能安装源,然后帮我安装 web-collection-1776190038 技能

通过命令行安装

skillhub install web-collection-1776190038

下载

⬇ 下载 web-collection v1.2.3(免费)

文件大小: 19.79 KB | 发布时间: 2026-4-15 10:35

v1.2.3 最新 2026-4-15 10:35
Fix cloud status parsing bug: remove bare identifiers in json_get_string expression to prevent ReferenceError in cloud_dispatch_loop.sh.

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
返回顶部