花椒油/藤椒油产业数据爬虫技能

概述

本技能提供一套完整的 Python 爬虫工具集，用于从 20+ 个重点数据源采集花椒/藤椒产业链数据。

快速开始

CODEBLOCK0

重点数据源（26 个站点）

A. 原料价格与供需（5 站）

站点	域名	adapter_id	采集内容
惠农网	cnhnb.com	INLINECODE0	花椒/藤椒实时批发价、历史价格走势
一亩田

B. 行业研究报告（6 站）

站点	域名	adapter_id	采集内容
观研天下	chinabaogao.com	INLINECODE5	花椒油/藤椒油行业报告摘要
中商产业研究院

C. 企业与财报（4 站）

站点	域名	adapter_id	采集内容
巨潮资讯网	cninfo.com.cn	INLINECODE11	招股书、年报（幺麻子/天味/颐海等）
东方财富

D. 政府与标准（4 站）

站点	域名	adapter_id	采集内容
国家林草局	forestry.gov.cn	INLINECODE15	花椒种植面积、产量、政策
农业农村部

E. 财经媒体（4 站）

站点	域名	adapter_id	采集内容
36氪	36kr.com	INLINECODE19	企业分析、融资动态
界面新闻

F. 全球市场（3 站）

站点	域名	adapter_id	采集内容
Business Research Insights	businessresearchinsights.com	INLINECODE23	全球 Prickly Ash Oil 市场
Verified Market Reports

架构

CODEBLOCK1

反爬策略

- 请求间隔 2-5 秒随机延迟（configurable per site）
fake-useragent 随机 UA
带 Referer 头模拟正常浏览
403/429 指数退避（2s → 4s → 8s → ... → 60s max）
支持代理池配置
对 JS 重站点说明使用 playwright（需用户手动安装）

数据标准化

所有输出统一单位：价格→元/公斤，面积→万亩，产量→万吨，金额→亿元。
每条数据必须携带 sourceurl、crawltime、original_text 字段。

花椒油/藤椒油产业数据爬虫技能

概述

本技能提供一套完整的 Python 爬虫工具集，用于从 20+ 个重点数据源采集花椒/藤椒产业链数据。

快速开始

bash

1. 安装依赖

pip install requests beautifulsoup4 lxml pandas openpyxl aiohttp fake-useragent --break-system-packages

2. 运行采集

python scripts/maincrawler.py --all --output /home/claude/pepperdata/

3. 按类别采集

python scripts/main_crawler.py --category price # 原料价格 python scripts/main_crawler.py --category market # 行业报告 python scripts/main_crawler.py --category company # 企业数据 python scripts/main_crawler.py --category gov # 政府数据 python scripts/main_crawler.py --category media # 媒体报道 python scripts/main_crawler.py --category global # 全球市场

4. 单站点采集

python scripts/main_crawler.py --site cnhnb # 惠农网价格 python scripts/maincrawler.py --site cnfinindex # 新华花椒指数

5. 导出报告

python scripts/exportreport.py --input /home/claude/pepperdata/ --output /mnt/user-data/outputs/花椒产业数据.xlsx

重点数据源（26 个站点）

A. 原料价格与供需（5 站）

站点	域名	adapter_id	采集内容
惠农网	cnhnb.com	cnhnb	花椒/藤椒实时批发价、历史价格走势
一亩田

B. 行业研究报告（6 站）

站点	域名	adapter_id	采集内容
观研天下	chinabaogao.com	chinabaogao	花椒油/藤椒油行业报告摘要
中商产业研究院

C. 企业与财报（4 站）

站点	域名	adapter_id	采集内容
巨潮资讯网	cninfo.com.cn	cninfo	招股书、年报（幺麻子/天味/颐海等）
东方财富

D. 政府与标准（4 站）

站点	域名	adapter_id	采集内容
国家林草局	forestry.gov.cn	forestry	花椒种植面积、产量、政策
农业农村部

E. 财经媒体（4 站）

站点	域名	adapter_id	采集内容
36氪	36kr.com	kr36	企业分析、融资动态
界面新闻

F. 全球市场（3 站）

站点	域名	adapter_id	采集内容
Business Research Insights	businessresearchinsights.com	bri	全球 Prickly Ash Oil 市场
Verified Market Reports

架构

pepper-oil-scraper/
├── SKILL.md
├── config/
│ └── targets.json # 全部站点配置
├── scripts/
│ ├── main_crawler.py # 主调度入口
│ ├── base_scraper.py # 基类：反爬、重试、限速
│ ├── adapters/
│ │ ├── init.py # 适配器注册表
│ │ ├── price_adapters.py # A 组：价格站点
│ │ ├── report_adapters.py # B 组：报告站点
│ │ ├── company_adapters.py # C 组：企业站点
│ │ ├── gov_adapters.py # D 组：政府站点
│ │ ├── media_adapters.py # E 组：媒体站点
│ │ └── global_adapters.py # F 组：全球站点
│ ├── data_cleaner.py # 数据清洗与标准化
│ └── export_report.py # 导出 Excel 报告
├── references/
│ └── anticrawlguide.md # 反爬策略参考
└── templates/
└── report_template.md # 报告输出模板

反爬策略

- 请求间隔 2-5 秒随机延迟（configurable per site）
fake-useragent 随机 UA
带 Referer 头模拟正常浏览
403/429 指数退避（2s → 4s → 8s → ... → 60s max）
支持代理池配置
对 JS 重站点说明使用 playwright（需用户手动安装）

数据标准化

所有输出统一单位：价格→元/公斤，面积→万亩，产量→万吨，金额→亿元。
每条数据必须携带 sourceurl、crawltime、original_text 字段。

pepper-oil-scraper辣椒油刮刀

pepper-oil-scraper

花椒油/藤椒油产业数据爬虫技能

概述

快速开始

重点数据源（26 个站点）

A. 原料价格与供需（5 站）

B. 行业研究报告（6 站）

C. 企业与财报（4 站）

D. 政府与标准（4 站）

E. 财经媒体（4 站）

F. 全球市场（3 站）

架构

反爬策略

数据标准化

花椒油/藤椒油产业数据爬虫技能

概述

快速开始

1. 安装依赖

2. 运行采集

3. 按类别采集

4. 单站点采集

5. 导出报告

重点数据源（26 个站点）

A. 原料价格与供需（5 站）

B. 行业研究报告（6 站）

C. 企业与财报（4 站）

D. 政府与标准（4 站）

E. 财经媒体（4 站）

F. 全球市场（3 站）

架构

反爬策略

数据标准化

标签

通过对话安装

方式一：安装 SkillHub 和技能

方式二：设置 SkillHub 为优先技能安装源

通过命令行安装

下载

pepper-oil-scraper辣椒油刮刀

pepper-oil-scraper

花椒油/藤椒油产业数据爬虫技能

概述

快速开始

重点数据源（26 个站点）

A. 原料价格与供需（5 站）

B. 行业研究报告（6 站）

C. 企业与财报（4 站）

D. 政府与标准（4 站）

E. 财经媒体（4 站）

F. 全球市场（3 站）

架构

反爬策略

数据标准化

花椒油/藤椒油产业数据爬虫技能

概述

快速开始

1. 安装依赖

2. 运行采集

3. 按类别采集

4. 单站点采集

5. 导出报告

重点数据源（26 个站点）

A. 原料价格与供需（5 站）

B. 行业研究报告（6 站）

C. 企业与财报（4 站）

D. 政府与标准（4 站）

E. 财经媒体（4 站）

F. 全球市场（3 站）

架构

反爬策略

数据标准化

标签

通过对话安装

方式一：安装 SkillHub 和技能

方式二：设置 SkillHub 为优先技能安装源

通过命令行安装

下载

相关推荐

self-improvement

self-improvement

self-improvement

self-improvement