Web Scraper Pro

Intelligent web page fetcher that converts any URL into clean, readable Markdown content. Uses a multi-layer fallback strategy to ensure maximum compatibility.

💰 Pricing: 0.001 USDT per web fetch

⚠️ CRITICAL: Payment Integration (MUST READ FIRST)

This skill is monetized via SkillPay. Before fetching ANY URL, you MUST execute the payment verification step.

Payment Configuration

CODEBLOCK0

Billing API Functions (MANDATORY)

⚠️ THIS CODE MUST BE EXECUTED BEFORE ANY WEB FETCH:

CODEBLOCK1

Payment Workflow Integration

CODEBLOCK2

多层抓取策略 (Multi-Layer Fetch Strategy)

本 skill 采用智能多层回退策略，确保最大兼容性：

层级	服务	URL 前缀	特点	适用场景
Layer 1	markdown.new	INLINECODE0	Cloudflare 原生，三层回退，最快	大部分网站（首选）
Layer 2

Layer 1: markdown.new（首选，最快）

Cloudflare 驱动的 URL→Markdown 转换服务，内置三层回退：

- 原生 Markdown: Accept: text/markdown 内容协商
Workers AI: HTML→Markdown AI 转换
浏览器渲染: 无头浏览器处理 JS 重度页面

CODEBLOCK3

支持的查询参数:

- method=auto|ai|browser - 指定转换方法
INLINECODE5 - 是否保留图片
速率限制: 每 IP 每天 500 次请求

Layer 2: defuddle.md（备选方案）

开源的网页→Markdown 提取服务，由 Obsidian Web Clipper 创建者开发。

CODEBLOCK4

Layer 3: Jina Reader（AI 内容提取）

Jina AI 的阅读器服务，擅长处理复杂页面。

CODEBLOCK5

额外功能: Jina 还支持搜索模式 INLINECODE6

Layer 4: Scrapling（终极兜底，反反爬）

强大的自适应爬虫框架，可绕过 Cloudflare Turnstile 等反爬机制。

CODEBLOCK6

CODEBLOCK7

Workflow

Phase 0: Payment Verification (MANDATORY - DO NOT SKIP)

⚠️ CRITICAL: This phase MUST be completed BEFORE any other phase. DO NOT proceed without payment verification.

1. Execute payment verification code (see Payment Verification Code section above)
If payment fails: Return the payment URL to user and STOP
If payment succeeds: Proceed to Phase 1

Phase 1: URL Analysis & Strategy Selection (MANDATORY)

当用户提供需要抓取的 URL 时：

1. 接收 URL: 用户提供目标网址
分析 URL 特征: 判断网站类型和最佳抓取策略

| URL 特征 | 推荐策略 |
|----------|----------|
| 普通网页/博客/文档 | Layer 1 (markdown.new) → 自动回退 |
| GitHub/技术文档 | Layer 1 (markdown.new) → Layer 3 (Jina) |
| 需要登录/付费墙 | 提示用户需要认证，无法自动抓取 |
| JavaScript 重度渲染 (SPA) | Layer 1 (markdown.new, method=browser) → Layer 4 (Scrapling) |
| 反爬严格的网站 | Layer 4 (Scrapling, stealth mode) |

3. 告知用户费用: "本次抓取将收取 0.001 USDT"

Phase 2: Execute Fetch (WITH PAYMENT)

⚠️ IMPORTANT: Execute payment verification BEFORE fetching!

使用以下智能抓取函数，自动按层级回退：

CODEBLOCK8

Phase 3: Content Processing & Output

抓取成功后：

1. 直接返回 Markdown 内容给用户
如果内容过长（超过 50000 字符），进行智能截取并提示用户
记录交易 ID 用于支付追踪

CODEBLOCK9

使用场景示例

场景 1: 抓取技术文档

CODEBLOCK10

执行流程:

1. 支付验证 → 通过
Layer 1 (markdown.new) → 尝试抓取
返回 Markdown 格式的 Python 教程内容

场景 2: 抓取 GitHub README

CODEBLOCK11

执行流程:

1. 支付验证 → 通过
Layer 1 (markdown.new) → GitHub 页面通常成功
返回 Scrapling 项目的 README 内容

场景 3: 抓取反爬网站

CODEBLOCK12

执行流程:

1. 支付验证 → 通过
Layer 1 → 失败
Layer 2 → 失败
Layer 3 → 失败
Layer 4 (Scrapling Stealth) → 使用隐身模式绕过反爬
返回提取的内容

场景 4: 搜索信息（使用 Jina Search）

CODEBLOCK13

CODEBLOCK14

Prerequisites (按需安装)

基础依赖（Layer 1-3 只需 requests）

CODEBLOCK15

Scrapling 依赖（Layer 4 - 仅在需要时安装）

# 基础安装
pip install scrapling

# 完整安装（含浏览器和反反爬功能）
pip install "scrapling[fetchers]"
scrapling install

💰 Revenue & Analytics

Track your earnings in real-time at SkillPay Dashboard.

- Price per fetch: 0.001 USDT
Your revenue share: 95%
Settlement: Instant (BNB Chain)

Powered by SkillPay - AI Skill Monetization Infrastructure

Web Scraper Pro

智能网页抓取器，可将任何URL转换为干净、可读的Markdown内容。采用多层回退策略，确保最大兼容性。

💰 定价：每次网页抓取 0.001 USDT

⚠️ 关键：支付集成（务必先阅读）

此技能通过 SkillPay 实现变现。在抓取任何URL之前，您必须执行支付验证步骤。

支付配置

python

═══════════════════════════════════════════════════

SkillPay 计费集成

═══════════════════════════════════════════════════

import requests

BILLINGAPIURL = https://skillpay.me
BILLINGAPIKEY = sk_d6d26f291dafc43acc8c2b6215b87cbc9b19c7d093aebdb2deeba42a3a0fea4b
SKILL_ID = 4fb2d57e-e583-4ca3-8170-52df37a6572b
HEADERS = {X-API-Key: BILLINGAPIKEY, Content-Type: application/json}

计费API函数（强制使用）

⚠️ 此代码必须在任何网页抓取之前执行：

python
import requests
import os

① 检查余额

def checkbalance(userid: str) -> float: resp = requests.get( f{BILLINGAPIURL}/api/v1/billing/balance, params={userid: userid}, headers=HEADERS ) return resp.json()[balance] # USDT 金额

② 每次调用扣费

def chargeuser(userid: str) -> dict: resp = requests.post( f{BILLINGAPIURL}/api/v1/billing/charge, headers=HEADERS, json={ userid: userid, skillid: SKILLID, amount: 0.001, # 每次调用 USDT } ) data = resp.json() if data[success]: return {ok: True, balance: data[balance]} # 余额不足 → 自动返回 BNB Chain USDT 支付链接 return {ok: False, balance: data[balance], paymenturl: data.get(paymenturl)}

③ 生成充值链接

def getpaymentlink(user_id: str, amount: float) -> str: resp = requests.post( f{BILLINGAPIURL}/api/v1/billing/payment-link, headers=HEADERS, json={userid: userid, amount: amount} ) return resp.json()[payment_url] # BNB Chain USDT

USERID = os.environ.get(SKILLPAYUSERID, anonymoususer)

支付工作流集成

python

========================================

步骤 0：扣费用户（强制）

========================================

这必须是任何网页抓取前的第一步

chargeresult = chargeuser(USER_ID)

if not charge_result[ok]:
print(f
╔══════════════════════════════════════════════════════════════╗
║ 💳 余额不足 ║
║ ║
║ 本次网页抓取费用为 0.001 USDT。 ║
║ 当前余额：{charge_result[balance]:<41}║
║ ║
║ 请充值至： ║
║ {chargeresult[paymenturl]:<56}║
║ ║
║ 支付后，请重试您的请求。 ║
╚══════════════════════════════════════════════════════════════╝
)
raise SystemExit(网页抓取余额不足)

print(f✅ 已扣费 0.001 USDT。剩余余额：{charge_result[balance]} USDT)

多层抓取策略

本技能采用智能多层回退策略，确保最大兼容性：

层级	服务	URL 前缀	特点	适用场景
第1层	markdown.new	https://markdown.new/	Cloudflare 原生，三层回退，最快	大部分网站（首选）
第2层

第1层：markdown.new（首选，最快）

Cloudflare 驱动的 URL→Markdown 转换服务，内置三层回退：

- 原生 Markdown：Accept: text/markdown 内容协商
Workers AI：HTML→Markdown AI 转换
浏览器渲染：无头浏览器处理 JS 重度页面

python
import requests

def fetchviamarkdownnew(url: str, method: str = auto, retainimages: bool = True) -> str:

第1层：使用 markdown.new 抓取网页

参数：
url：目标网页 URL
method：转换方法 - auto | ai | browser
retain_images：是否保留图片链接

返回：
str：Markdown 格式的网页内容

api_url = https://markdown.new/

try:
response = requests.post(
api_url,
headers={Content-Type: application/json},
json={
url: url,
method: method,
retainimages: retainimages
},
timeout=60
)

if response.status_code == 200:
token_count = response.headers.get(x-markdown-tokens, unknown)
print(f✅ [markdown.new] 抓取成功 (tokens: {token_count}))
return response.text
elif response.status_code == 429:
print(⚠️ [markdown.new] 速率限制，切换到下一层...)
return None
else:
print(f⚠️ [markdown.new] 返回状态码 {response.status_code}，切换到下一层...)
return None

except requests.exceptions.RequestException as e:
print(f⚠️ [markdown.new] 请求失败: {e}，切换到下一层...)
return None

支持的查询参数：

- method=auto|ai|browser - 指定转换方法
retain_images=true|false - 是否保留图片
速率限制：每 IP 每天 500 次请求

第2层：defuddle.md（备选方案）

开源的网页→Markdown 提取服务，由 Obsidian Web Clipper 创建者开发。

python
def fetchviadefuddle(url: str) -> str:

第2层：使用 defuddle.md 抓取网页

参数：
url：目标网页 URL（不含 https:// 前缀亦可）

返回：
str：带有 YAML frontmatter 的 Markdown 内容

# defuddle 接受 URL 路径直接拼接
clean_url = url.replace(https://, ).replace(http://, )
apiurl = fhttps://defuddle.md/{cleanurl}

try:
response = requests.get(api_url, timeout=60)

if response.status_code == 200 and len(response.text.strip()) > 50:
print(f✅ [defuddle.md] 抓取成功)
return response.text
else:
print(f⚠️ [defuddle.md] 内容为空或失败 (status: {response.status_code})，切换到下一层...)
return None

except requests.exceptions.RequestException as e:
print(f⚠️ [defuddle.md] 请求失败: {e}，切换到下一层...)
return None

第3层：Jina Reader（AI 内容提取）

Jina AI 的阅读器

web-scraper智能网页抓取

web-scraper

Web Scraper Pro

⚠️ CRITICAL: Payment Integration (MUST READ FIRST)

Payment Configuration

Billing API Functions (MANDATORY)

Payment Workflow Integration

多层抓取策略 (Multi-Layer Fetch Strategy)

Layer 1: markdown.new（首选，最快）

Layer 2: defuddle.md（备选方案）

Layer 3: Jina Reader（AI 内容提取）

Layer 4: Scrapling（终极兜底，反反爬）

Workflow

Phase 0: Payment Verification (MANDATORY - DO NOT SKIP)

Phase 1: URL Analysis & Strategy Selection (MANDATORY)

Phase 2: Execute Fetch (WITH PAYMENT)

Phase 3: Content Processing & Output

使用场景示例

场景 1: 抓取技术文档

场景 2: 抓取 GitHub README

场景 3: 抓取反爬网站

场景 4: 搜索信息（使用 Jina Search）

Prerequisites (按需安装)

基础依赖（Layer 1-3 只需 requests）

Scrapling 依赖（Layer 4 - 仅在需要时安装）

💰 Revenue & Analytics

Web Scraper Pro

⚠️ 关键：支付集成（务必先阅读）

支付配置

═══════════════════════════════════════════════════

SkillPay 计费集成

═══════════════════════════════════════════════════

计费API函数（强制使用）

① 检查余额

② 每次调用扣费

③ 生成充值链接

支付工作流集成

========================================

步骤 0：扣费用户（强制）

========================================

这必须是任何网页抓取前的第一步

多层抓取策略

第1层：markdown.new（首选，最快）

第2层：defuddle.md（备选方案）

第3层：Jina Reader（AI 内容提取）

标签

通过对话安装

方式一：安装 SkillHub 和技能

方式二：设置 SkillHub 为优先技能安装源

通过命令行安装

下载

相关推荐

self-improvement

self-improvement

self-improvement

self-improvement