返回顶部
x

xhs-rental-ocr小红书租房OCR

|

作者: admin | 来源: ClawHub
源自
ClawHub
版本
V 1.0.0
安全检测
已通过
104
下载量
免费
免费
0
收藏
概述
安装方式
版本历史

xhs-rental-ocr

小红书数据提取 OCR (XHS Rental OCR)

从小红书笔记图片中提取结构化数据(租金/面积/单价等),支持自动裁切长图、OCR 识别、导出 Excel。

🎯 适用场景

  • - 从小红书笔记提取租房/房价数据
  • 从社交媒体图片提取表格数据
  • 从长图/信息图提取统计信息
  • 批量 OCR 识别并导出为 Excel/CSV

📦 安装

bash

OpenClaw / Codex


git clone https://github.com/zhuobao/xhs-rental-ocr.git ~/.agents/skills/xhs-rental-ocr

🚀 快速开始

基础用法

bash
cd ~/.agents/skills/xhs-rental-ocr
python3 scripts/extract_data.py --url https://www.xiaohongshu.com/explore/xxx --output data.xlsx

高级用法

bash

从本地图片提取


python3 scripts/extract_data.py --images image1.jpg image2.jpg --output data.xlsx

裁切长图后识别(9 等分)

python3 scripts/extractdata.py --images longimage.jpg --slice 9 --output data.xlsx

导出 CSV 格式

python3 scripts/extract_data.py --images image.jpg --output data.csv

指定识别语言(中文 + 英文)

python3 scripts/extract_data.py --images image.jpg --languages zh-Hans,en-US

📋 工作流程

  1. 1. 下载图片(从 URL 或本地)
  1. 2. 可选:裁切长图(N 等分)
  1. 3. Apple Vision OCR 识别
  1. 4. 正则提取结构化数据
  1. 5. 导出 Excel/CSV

📁 目录结构

xhs-rental-ocr/
├── SKILL.md # 技能描述(本文件)
├── scripts/
│ ├── extract_data.py # 主脚本
│ └── vision_ocr.py # OCR 模块
├── examples/
│ └── sample_output.xlsx
└── README.md # 详细文档

🔧 依赖

  • - Python 3.9+
  • Pillow(图片处理)
  • pyobjc-framework-Vision(macOS OCR)
  • pyobjc-framework-Cocoa
  • openpyxl(Excel 导出)

安装依赖:
bash
pip3 install pillow openpyxl pyobjc-framework-Vision pyobjc-framework-Cocoa

📤 输出格式

Excel 列

列名说明
序号记录编号
图片
来源图片 | | 区域 | 区域名称(如识别到) | | 板块 | 小区/板块(如识别到) | | 户型 | 户型(如识别到) | | 面积 (平) | 建筑面积 | | 月租金 (元) | 月租金 | | 单价 (元/平) | 每平米单价 | | 备注 | 其他信息 |

支持的数据模式

  1. 1. 租房数据:租金、面积、单价
  2. 房价数据:总价、单价、面积
  3. 通用表格:自动检测数字 + 单位

🎨 示例

示例 1:提取小红书租房数据

bash
python3 scripts/extract_data.py \
--url https://www.xiaohongshu.com/explore/69be073b000000002302339e \
--output rental_data.xlsx

输出

  • - 824-1295 条租房记录
  • 包含区域、小区、户型、面积、租金、单价

示例 2:裁切长图识别

bash
python3 scripts/extract_data.py \
--images screenshot.png \
--slice 9 \
--output extracted_data.xlsx

说明:将长图裁切成 9 份,分别 OCR 后合并结果。

⚙️ 配置选项

参数说明默认值
--url小红书笔记 URL-
--images
本地图片路径(可多个) | - | | --output | 输出文件路径 | output.xlsx | | --slice | 长图裁切份数 | 1(不裁切) | | --languages | OCR 语言 | zh-Hans,en-US | | --confidence | 最低置信度 | 0.3 | | --format | 输出格式 | xlsx |

🔍 OCR 技术细节

使用 Apple Vision 框架

  • - 离线识别,无需网络
  • 支持 30+ 语言
  • 中文识别准确率高
  • 自动检测文字方向

优化策略

  1. 1. 高分辨率图片优先
  2. 长图裁切提高识别率
  3. 置信度过滤(默认>0.3)
  4. 正则提取结构化数据

📝 注意事项

  1. 1. macOS 专属:依赖 Apple Vision 框架
  2. 图片质量:建议使用高清原图
  3. 长图处理:超过 2000px 高度的图片建议裁切
  4. 数据验证:OCR 结果可能包含异常值,建议手动检查

🤝 贡献

欢迎提交 Issue 和 Pull Request!

GitHub: https://github.com/zhuobao/xhs-rental-ocr

📄 License

MIT License

🙏 致谢

  • - Apple Vision Framework
  • MiniMax Skills (灵感来源)
  • OpenClaw Community

标签

skill ai

通过对话安装

该技能支持在以下平台通过对话安装:

OpenClaw WorkBuddy QClaw Kimi Claude

方式一:安装 SkillHub 和技能

帮我安装 SkillHub 和 xhs-rental-ocr-1776055461 技能

方式二:设置 SkillHub 为优先技能安装源

设置 SkillHub 为我的优先技能安装源,然后帮我安装 xhs-rental-ocr-1776055461 技能

通过命令行安装

skillhub install xhs-rental-ocr-1776055461

下载

⬇ 下载 xhs-rental-ocr v1.0.0(免费)

文件大小: 8.86 KB | 发布时间: 2026-4-14 13:16

v1.0.0 最新 2026-4-14 13:16
xhs-rental-ocr v1.0.0 – Initial release

- Extracts structured data (rent, area, price per sqm, etc.) from Xiaohongshu/Social media images.
- Features automatic long image slicing, OCR (Apple Vision framework, offline, Chinese supported), and export to Excel/CSV.
- Supports batch processing and multiple input formats (URL, local images).
- Includes configurable output columns for real estate data extraction.
- macOS only; dependencies: Python 3.9+, Pillow, openpyxl, pyobjc.

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
返回顶部