Data Intelligence 数据智能平台

综合数据智能解决方案，整合云端爬虫、浏览器自动化和内容分析，构建完整的数据采集与分析工作流。

系统架构

CODEBLOCK0

一、云端爬虫层 (Apify)

1.1 支持的 55+ 平台

社交媒体 (45 Actors)

平台	Actor 数量	主要用途
Instagram	12	个人资料、帖子、评论、标签、Reels
Facebook

商业与本地 (10 Actors)

平台	Actor 数量	主要用途
Google Maps	4	商家信息、评论、邮箱提取
Booking.com

1.2 核心 Actor 速查表

线索生成

需求	Actor ID	输出
本地商家	INLINECODE0	名称、地址、电话、评分
邮箱提取

内容分析

需求	Actor ID	输出
Instagram 帖子	INLINECODE5	内容、点赞、评论数
TikTok 视频

竞品监测

需求	Actor ID	输出
Google Maps 评论	INLINECODE9	评论、评分、情感
Booking 评论

1.3 Apify 使用工作流

前置条件：
CODEBLOCK1

标准工作流：

CODEBLOCK2

执行命令：

CODEBLOCK3

二、浏览器自动化层 (PinchTab)

2.1 与 Apify 的互补关系

场景	使用 Apify	使用 PinchTab
大规模数据采集	✅ 云端 Actor，并发高	❌ 本地运行，资源有限
需要登录/认证

2.2 混合工作流示例

场景：监测竞品网站 + 分析其社交媒体

CODEBLOCK4

2.3 数据采集黄金组合

数据类型	Apify Actor	PinchTab 补充
商家信息	Google Maps Actor	官网详情验证
产品信息

三、内容分析层

3.1 数据采集后的内容工作流

CODEBLOCK5

3.2 数据分析模板

竞品分析报告模板：

CODEBLOCK6

四、实战案例

案例 1：本地商家线索挖掘

目标： 收集某城市所有咖啡店的信息和联系方式

CODEBLOCK7

案例 2：竞品社交媒体监测

目标： 监测 3 个竞品的 Instagram 表现

CODEBLOCK8

案例 3：趋势研究 + 内容创作

目标： 发现 TikTok 趋势，快速创作相关内容

CODEBLOCK9

五、安装与配置

5.1 安装依赖

CODEBLOCK10

5.2 验证安装

CODEBLOCK11

5.3 Claude Code 集成

在 .claude/settings.json 中添加：

CODEBLOCK12

六、命令速查

6.1 Apify 常用命令

CODEBLOCK13

6.2 PinchTab 常用命令

CODEBLOCK14

6.3 组合命令

CODEBLOCK15

七、最佳实践

7.1 成本控制

工具	成本模式	适用场景
Apify	按结果付费	大规模数据采集
PinchTab

7.2 数据质量

- 验证样本：大规模采集前，先用小样本验证数据质量
交叉验证：同一数据用多个 Actor 采集，对比结果
时效性：注意数据更新时间，避免使用过期数据

7.3 合规性

- 遵守各平台的服务条款
尊重 robots.txt
不采集个人隐私数据
合理使用频率，避免对目标网站造成压力

八、故障排除

问题	原因	解决方案
APIFY_TOKEN not found	环境变量未设置	INLINECODE13
mcpc not found

九、参考资源

让数据驱动决策，用智能提升效率。

Data Intelligence 数据智能平台

综合数据智能解决方案，整合云端爬虫、浏览器自动化和内容分析，构建完整的数据采集与分析工作流。

系统架构

┌─────────────────────────────────────────────────────────────────┐
│ Data Intelligence 平台 │
├─────────────────┬─────────────────┬─────────────────────────────┤
│ 云端爬虫层 │ 浏览器自动化层 │ 内容分析层 │
├─────────────────┼─────────────────┼─────────────────────────────┤
│ • Apify Actors │ • PinchTab │ • 内容工厂 │
│ • 55+ 平台支持 │ • 多实例编排 │ • 趋势分析 │
│ • 无服务器架构 │ • Token高效提取 │ • 竞品监测 │
│ • 弹性扩展 │ • 自动化测试 │ • 数据可视化 │
└─────────────────┴─────────────────┴─────────────────────────────┘
│ │ │
└────────────────┼───────────────────┘
↓
┌─────────────────────┐
│ 数据工作流引擎 │
│ • 数据采集 │
│ • 清洗转换 │
│ • 分析洞察 │
│ • 报告生成 │
└─────────────────────┘

一、云端爬虫层 (Apify)

1.1 支持的 55+ 平台

社交媒体 (45 Actors)

平台	Actor 数量	主要用途
Instagram	12	个人资料、帖子、评论、标签、Reels
Facebook

商业与本地 (10 Actors)

平台	Actor 数量	主要用途
Google Maps	4	商家信息、评论、邮箱提取
Booking.com

1.2 核心 Actor 速查表

线索生成

需求	Actor ID	输出
本地商家	compass/crawler-google-places	名称、地址、电话、评分
邮箱提取

内容分析

需求	Actor ID	输出
Instagram 帖子	apify/instagram-post-scraper	内容、点赞、评论数
TikTok 视频

竞品监测

需求	Actor ID	输出
Google Maps 评论	compass/Google-Maps-Reviews-Scraper	评论、评分、情感
Booking 评论

1.3 Apify 使用工作流

前置条件：
bash

1. 安装依赖

npm install -g @apify/mcpc

2. 配置 Token

echo APIFYTOKEN=yourtoken_here > .env

3. 验证

export $(grep APIFY_TOKEN .env | xargs) && mcpc --version

标准工作流：

markdown

数据采集任务清单

- [ ] 步骤 1: 明确目标 - 需要什么数据？从哪个平台？
[ ] 步骤 2: 选择 Actor - 根据平台速查表选择
[ ] 步骤 3: 获取 Schema - 了解输入参数
[ ] 步骤 4: 配置参数 - 设置搜索关键词、数量等
[ ] 步骤 5: 运行采集 - 执行 Actor
[ ] 步骤 6: 数据清洗 - 处理缺失值、格式转换
[ ] 步骤 7: 分析洞察 - 生成报告

执行命令：

bash

快速预览（仅显示结果，不保存文件）

export $(grep APIFY_TOKEN .env | xargs) && mcpc --json mcp.apify.com \
--header Authorization: Bearer $APIFY_TOKEN \
tools-call run-actor \
actor:=compass/crawler-google-places \
input:={searchStrings: [coffee shop], location: New York}

导出 CSV

export $(grep APIFY_TOKEN .env | xargs) && mcpc --json mcp.apify.com \ --header Authorization: Bearer $APIFY_TOKEN \ tools-call run-actor \ actor:=compass/crawler-google-places \ input:={searchStrings: [coffee shop], maxCrawledPlaces: 50} \ | jq -r .content[0].text > results.csv

导出 JSON

export $(grep APIFY_TOKEN .env | xargs) && mcpc --json mcp.apify.com \ --header Authorization: Bearer $APIFY_TOKEN \ tools-call run-actor \ actor:=apify/instagram-profile-scraper \ input:={usernames: [example_user]} \ | jq .content[0].text | fromjson > results.json

二、浏览器自动化层 (PinchTab)

2.1 与 Apify 的互补关系

场景	使用 Apify	使用 PinchTab
大规模数据采集	✅ 云端 Actor，并发高	❌ 本地运行，资源有限
需要登录/认证

2.2 混合工作流示例

场景：监测竞品网站 + 分析其社交媒体

bash

Step 1: 使用 PinchTab 访问竞品网站，提取关键信息

pinchtab nav https://competitor.com
sleep 3
pinchtab text > competitor-content.txt

Step 2: 从网站提取社交媒体链接

grep -oE (instagram|facebook|tiktok)\.com/[^ ]+ competitor-content.txt > social-links.txt

Step 3: 使用 Apify 分析其社交媒体

Step 4: 数据分析

node analyze-competitor.js competitor-ig-data.json

2.3 数据采集黄金组合

数据类型	Apify Actor	PinchTab 补充
商家信息	Google Maps Actor	官网详情验证
产品信息

三、内容分析层

3.1 数据采集后的内容工作流

Apify 采集数据
↓
数据清洗 (Python/pandas)
↓
内容分析 (内容工厂技能)
↓
生成报告 / 发布内容

3.2 数据分析模板

竞品

data-intelligence数据智能平台