返回顶部
a

article-extract文章提取

提取微信公众号、博客、新闻等网页的正文内容,绕过反爬机制,纯文本输出。

作者: admin | 来源: ClawHub
源自
ClawHub
版本
V 1.0.0
安全检测
已通过
507
下载量
免费
免费
0
收藏
概述
安装方式
版本历史

article-extract

文章提取

网页文章内容提取工具。支持微信公众号、博客、新闻网站等,输出干净的纯文本内容。

特点

  • - ✅ 绕过微信公众号反爬机制
  • ✅ 自动过滤脚本、样式、导航等无关内容
  • ✅ 纯 Python 实现,无需额外依赖
  • ✅ 支持任意网页 URL

安装

无需安装,直接使用 Python 3 运行。

使用

bash
python3 skills/article-extract/scripts/extract.py

示例

bash

提取微信公众号文章


python3 skills/article-extract/scripts/extract.py https://mp.weixin.qq.com/s/xxxxx

提取博客文章

python3 skills/article-extract/scripts/extract.py https://example.com/blog/post

保存到文件

python3 skills/article-extract/scripts/extract.py https://mp.weixin.qq.com/s/xxxxx > article.txt

输出

工具会输出提取的纯文本内容到 stdout,可以通过重定向保存到文件:

bash
python3 skills/article-extract/scripts/extract.py https://... > output.txt

原理

  1. 1. 使用标准浏览器 User-Agent 发送 HTTP 请求
  2. 解析 HTML,过滤

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large