Novel Scraper - 小说抓取工具
版本说明:novel-scraper 提供两个版本,根据需求选择使用。
📦 版本对比
| 特性 | v1.4.0(生产版) | V5(智能版) |
|---|
| 章节号解析 | URL ID 推算 | 标题提取 ✅ |
| 分页检测 |
❌ 无 | ✅ 自动 ✅ |
|
分页补全 | ❌ 无 | ✅ 自动(最多 5 页)✅ |
|
非小说跳过 | ❌ 无 | ✅ 智能判断 ✅ |
|
质量验证 | ❌ 无 | ✅ 基础验证 ✅ |
|
连续性检查 | ❌ 无 | ✅ 自动检查 ✅ |
|
代码量 | 34KB | 18KB |
|
速度 | ⚡ 最快 | ⚡ 快 |
|
推荐场景 | 日常批量抓取 | 高质量/分页章节 |
🚀 快速开始
v1.5.0(推荐)- 按章节号抓取
CODEBLOCK0
特点:
- - ✅ 按章节号精确筛选(修复索引切片 bug)
- ✅ 自动提示缺失章节
- ✅ 分页自动补全
- ✅ 适合按章节范围抓取的场景
v1.4.0(生产版)- 日常使用
CODEBLOCK1
特点:
- - ✅ 稳定可靠
- ✅ 速度最快
- ✅ 适合已知章节 URL 连续的场景
V5(智能版)- 高质量抓取
CODEBLOCK2
特点:
- - ✅ 章节号自动解析
- ✅ 分页自动补全
- ✅ 非小说内容智能跳过
- ✅ 适合分页章节较多的场景
📋 命令行参数
v1.5.0 参数(推荐)
| 参数 | 说明 | 默认值 |
|---|
| INLINECODE0 | 章节号范围(格式:起始 - 结束) | - |
| INLINECODE2 |
单章 URL | - |
|
--urls | 多章 URL(逗号分隔) | - |
|
--book | 书名 | 自动提取 |
|
--merge-interval | 每 N 章合并 | 10 |
|
--memory-limit | 内存限制 MB | 2500 |
|
--auto-close | 每 N 章释放内存 | 3 |
|
--retry | 重试次数 | 3 |
⚠️ v1.5.0 重要修复:
- - 修复索引切片 bug(之前
data[300:400] 错误对应章节号 300-419) - 新增
--chapters 参数,按章节号精确筛选 - 自动提示缺失章节(网站目录中没有的章节)
V5 参数
| 参数 | 说明 | 默认值 |
|---|
| INLINECODE11 | 章节号范围(格式:起始 - 结束) | - |
| INLINECODE13 |
单章 URL | - |
|
--urls | 多章 URL(逗号分隔) | - |
|
--book | 书名 | 自动提取 |
|
--merge-interval | 每 N 章合并 | 10 |
|
--strict | 严格质量验证 | 关闭 |
|
-v | 详细日志 | 关闭 |
📁 输出位置
CODEBLOCK3
文件名格式:
- - 多章合并: INLINECODE19
- 单章: INLINECODE20
🧪 测试验证
| 测试场景 | 版本 | 结果 |
|---|
| 第 1-10 章 | V5 | ✅ 119KB,完整 |
| 第 11-20 章 |
V5 | ✅ 100KB,完整 |
| 第 111-210 章 | v1.4.0 | ✅ 10 个文件,~700KB |
| 分页补全 | V5 | ✅ 28 段→112 段 |
| 非小说跳过 | V5 | ✅ 自动跳过 |
🔧 故障排除
抓取内容为空
- 1. 检查 URL 格式
- 清除缓存: INLINECODE21
- 检查网站是否可访问
章节号不正确
文件保存位置
ls -lt ~/.openclaw/workspace/novels/ | head -5
版本: 1.4.0
更新: 2026-04-02
详见: CHANGELOG.md
Novel Scraper - 小说抓取工具
版本说明:novel-scraper 提供两个版本,根据需求选择使用。
📦 版本对比
| 特性 | v1.4.0(生产版) | V5(智能版) |
|---|
| 章节号解析 | URL ID 推算 | 标题提取 ✅ |
| 分页检测 |
❌ 无 | ✅ 自动 ✅ |
|
分页补全 | ❌ 无 | ✅ 自动(最多 5 页)✅ |
|
非小说跳过 | ❌ 无 | ✅ 智能判断 ✅ |
|
质量验证 | ❌ 无 | ✅ 基础验证 ✅ |
|
连续性检查 | ❌ 无 | ✅ 自动检查 ✅ |
|
代码量 | 34KB | 18KB |
|
速度 | ⚡ 最快 | ⚡ 快 |
|
推荐场景 | 日常批量抓取 | 高质量/分页章节 |
🚀 快速开始
v1.5.0(推荐)- 按章节号抓取
bash
cd ~/.openclaw/workspace/skills/novel-scraper
python3 scripts/scraper_v5.py \
--chapters 301-400 \
--book 没钱修什么仙 \
--merge-interval 10
特点:
- - ✅ 按章节号精确筛选(修复索引切片 bug)
- ✅ 自动提示缺失章节
- ✅ 分页自动补全
- ✅ 适合按章节范围抓取的场景
v1.4.0(生产版)- 日常使用
bash
cd ~/.openclaw/workspace/skills/novel-scraper
python3 scripts/scraper.py \
--urls https://www.bqquge.com/4/1962,https://www.bqquge.com/4/1963,... \
--book 没钱修什么仙 \
--merge-interval 10
特点:
- - ✅ 稳定可靠
- ✅ 速度最快
- ✅ 适合已知章节 URL 连续的场景
V5(智能版)- 高质量抓取
bash
python3 scripts/scraper_v5.py \
--chapters 301-400 \
--book 没钱修什么仙 \
--merge-interval 10
特点:
- - ✅ 章节号自动解析
- ✅ 分页自动补全
- ✅ 非小说内容智能跳过
- ✅ 适合分页章节较多的场景
📋 命令行参数
v1.5.0 参数(推荐)
| 参数 | 说明 | 默认值 |
|---|
| --chapters | 章节号范围(格式:起始 - 结束) | - |
| --url |
单章 URL | - |
| --urls | 多章 URL(逗号分隔) | - |
| --book | 书名 | 自动提取 |
| --merge-interval | 每 N 章合并 | 10 |
| --memory-limit | 内存限制 MB | 2500 |
| --auto-close | 每 N 章释放内存 | 3 |
| --retry | 重试次数 | 3 |
⚠️ v1.5.0 重要修复:
- - 修复索引切片 bug(之前 data[300:400] 错误对应章节号 300-419)
- 新增 --chapters 参数,按章节号精确筛选
- 自动提示缺失章节(网站目录中没有的章节)
V5 参数
| 参数 | 说明 | 默认值 |
|---|
| --chapters | 章节号范围(格式:起始 - 结束) | - |
| --url |
单章 URL | - |
| --urls | 多章 URL(逗号分隔) | - |
| --book | 书名 | 自动提取 |
| --merge-interval | 每 N 章合并 | 10 |
| --strict | 严格质量验证 | 关闭 |
| -v | 详细日志 | 关闭 |
📁 输出位置
~/.openclaw/workspace/novels/
文件名格式:
- - 多章合并:书名第 X-Y 章.txt
- 单章:书名第 X 章.txt
🧪 测试验证
| 测试场景 | 版本 | 结果 |
|---|
| 第 1-10 章 | V5 | ✅ 119KB,完整 |
| 第 11-20 章 |
V5 | ✅ 100KB,完整 |
| 第 111-210 章 | v1.4.0 | ✅ 10 个文件,~700KB |
| 分页补全 | V5 | ✅ 28 段→112 段 |
| 非小说跳过 | V5 | ✅ 自动跳过 |
🔧 故障排除
抓取内容为空
- 1. 检查 URL 格式
- 清除缓存:rm -rf /tmp/novelscrapercache/*
- 检查网站是否可访问
章节号不正确
文件保存位置
bash
ls -lt ~/.openclaw/workspace/novels/ | head -5
版本: 1.4.0
更新: 2026-04-02
详见: CHANGELOG.md