返回顶部
a

apifyApify爬虫

Run any Apify Actor to scrape web data (Instagram, TikTok, Reddit, Twitter, etc). Handles Actor discovery, quality filtering, probe testing, batched execution, and result collection. Use when user asks to scrape/crawl/extract data from websites or social media platforms, or mentions Apify directly.

作者: admin | 来源: ClawHub
源自
ClawHub
版本
V 1.0.0
安全检测
已通过
265
下载量
免费
免费
0
收藏
概述
安装方式
版本历史

apify

Apify 技能

通过标准化工作流程运行任意 Apify Actor:搜索 → 验证 → 执行 → 收集结果。

前置条件

  • - APIFY_TOKEN 环境变量,或包含令牌的 config.json 文件(复制 config.json.example)
  • 已安装 requests 库的 Python 3

工作流程

步骤 1:解析用户意图

从用户请求中提取:

  • - 平台/目标(Instagram、TikTok、Reddit 等)
  • 抓取内容(帖子、个人资料、话题标签、评论等)
  • 目标(URL、用户名、关键词)
  • 数量/筛选条件(数量、时间范围、最低点赞数等)

步骤 2:选择令牌

如果用户指定了令牌名称或任务对应特定账户,则使用该令牌。否则使用 default。

令牌可通过以下方式提供:

  1. 1. --token 参数(最高优先级)
  2. config.json 令牌映射(通过 --token-name)
  3. APIFY_TOKEN 环境变量(后备方案)

步骤 3:搜索并选择 Actor

运行搜索脚本:

bash
python3 scripts/search_actor.py instagram scraper --top 3

输出:按评分、成功率、评级、定价模型排序的候选列表。

质量筛选条件(内置于脚本):

  • - notice = NONE(未弃用)
  • 30天成功率 ≥ 95%
  • 30天运行次数 ≥ 1,000
  • 用户评分 ≥ 4.0

选择排名最高的候选。如果用户有偏好或之前使用过特定 Actor,则跳过搜索。

步骤 4:获取 Actor 模式并构建 run_input

获取 Actor 的文档:

bash
webfetch https://apify.com/{actorid}.md

阅读输入模式部分。基于以下内容构建 run_input JSON:

  • - Actor 的必填/可选字段
  • 用户的目标和筛选条件
  • 文档中的合理默认值

不要要求用户编写 JSON。 根据他们的自然语言请求构建。

步骤 5:探测测试(Top 1 → Top 2 → Top 3 后备方案)

在提交完整运行之前,使用最小输入进行测试:

bash
python3 scripts/apifyrunner.py {actorid} \
--input {...} \
--token {token} \
--probe-only \
--list-key {key}

探测自动使用列表字段的前 2 个项目。

检查项:

  • - 运行成功启动(无权限/计费错误)
  • 运行完成(无超时/崩溃)
  • 返回非空数据

如果探测失败 → 尝试下一个候选 Actor。如果全部 3 个都失败 → 向用户报告并提供 Actor URL 以便手动激活。

步骤 6:完整执行

bash
python3 scripts/apifyrunner.py {actorid} \
--input {...} \
--token {token} \
--output /path/to/results.json \
--list-key {key} \
--batch-size 50 \
--probe

关键参数:

参数用途默认值
--list-keyrun_input 中包含要分批处理的列表字段无(不分批)
--batch-size
每批项目数 | 50 |
| --timeout | 每批超时时间(秒) | 600 |
| --probe | 完整执行前运行探测 | 关闭 |
| --output | 将结果保存到 JSON 文件 | 标准输出 |
| --config | 用于令牌查找的 config.json 路径 | 无 |
| --token-name | 从配置中使用哪个令牌 | default |

分批规则:

  • - ≤ batch-size 项目 → 单次运行
  • \> batch-size 项目 → 自动拆分,批次间暂停 3 秒
  • 每批有独立的超时时间(默认 10 分钟)

步骤 7:返回结果

  • - 报告收集的项目总数
  • 将原始 JSON 保存到指定的输出路径
  • 汇总关键统计信息(项目数、批次数、任何失败)
  • 由调用者处理筛选/报告/交付

常见 Actor 模式

平台典型 Actorlist_key示例输入
Instagramapify/instagram-scraperdirectUrls{directUrls: [https://instagram.com/user/], resultsType: posts, resultsLimit: 3}
TikTok
clockworks/tiktok-scraper | hashtags | {hashtags: [cooking], resultsPerPage: 50} | | Reddit | trudax/reddit-scraper-lite | startUrls | {startUrls: [{url: https://reddit.com/r/cooking/top/?t=month}], maxItems: 30} | | Twitter | apidojo/tweet-scraper | — | 查看 .md 文件获取当前模式 |

这些是起点。始终通过 Actor 的 .md 页面验证当前模式。

标签

skill ai

通过对话安装

该技能支持在以下平台通过对话安装:

OpenClaw WorkBuddy QClaw Kimi Claude

方式一:安装 SkillHub 和技能

帮我安装 SkillHub 和 apify-runner-1776202431 技能

方式二:设置 SkillHub 为优先技能安装源

设置 SkillHub 为我的优先技能安装源,然后帮我安装 apify-runner-1776202431 技能

通过命令行安装

skillhub install apify-runner-1776202431

下载

⬇ 下载 apify v1.0.0(免费)

文件大小: 7.04 KB | 发布时间: 2026-4-15 12:29

v1.0.0 最新 2026-4-15 12:29
Initial release

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
返回顶部