返回顶部
n

news-crawler新闻爬虫

|

作者: admin | 来源: ClawHub
源自
ClawHub
版本
V 1.0.0
安全检测
已通过
700
下载量
免费
免费
0
收藏
概述
安装方式
版本历史

news-crawler

News Crawler - 新闻爬虫

自动爬取新闻网站和RSS源,提取内容并生成摘要。

快速开始

1. 获取RSS新闻列表

查看可用的新闻源:
bash
python3 scripts/rss_fetcher.py

获取指定RSS源的新闻:
bash
python3 scripts/rssfetcher.py url> [max_items]

示例:
bash
python3 scripts/rss_fetcher.py https://www.solidot.org/index.rss 5

2. 爬取具体网页内容

bash
python3 scripts/crawl.py [max_length]

示例:
bash
python3 scripts/crawl.py https://example.com/news/article.html 3000

工作流程

生成新闻日报

  1. 1. 选择新闻源 - 从常用源中选择或用户提供RSS地址
  2. 获取新闻列表 - 使用 rss_fetcher.py 获取最新文章
  3. 爬取详细内容 - 对每篇文章使用 crawl.py 获取全文
  4. 生成摘要 - 使用 LLM 总结每篇文章的核心内容
  5. 整理报告 - 按类别或时间排序,生成结构化日报

支持的RSS源

常用中文科技新闻源:

  • - Solidot: https://www.solidot.org/index.rss
  • TechWeb: https://www.techweb.com.cn/rss/all.xml
  • 36氪: https://36kr.com/feed

国际源:

  • - Hacker News: https://news.ycombinator.com/rss
  • TechCrunch: https://techcrunch.com/feed/

输出格式

rss_fetcher.py 输出:
json
{
items: [
{
title: 文章标题,
link: 文章链接,
description: 简介,
published: 发布时间
}
],
count: 10
}

crawl.py 输出:
json
{
url: 原始链接,
title: 页面标题,
content: 正文内容,
length: 5000
}

注意事项

  1. 1. 尊重robots.txt - 爬取前检查目标网站的爬虫协议
  2. 控制频率 - 避免频繁请求同一网站
  3. 内容长度 - 默认截取5000字符,可通过参数调整
  4. 编码问题 - 脚本已处理UTF-8编码,特殊网站可能需要额外处理

扩展开发

如需支持更多功能,可参考:

标签

skill ai

通过对话安装

该技能支持在以下平台通过对话安装:

OpenClaw WorkBuddy QClaw Kimi Claude

方式一:安装 SkillHub 和技能

帮我安装 SkillHub 和 news-crawler-1776107712 技能

方式二:设置 SkillHub 为优先技能安装源

设置 SkillHub 为我的优先技能安装源,然后帮我安装 news-crawler-1776107712 技能

通过命令行安装

skillhub install news-crawler-1776107712

下载

⬇ 下载 news-crawler v1.0.0(免费)

文件大小: 6.28 KB | 发布时间: 2026-4-15 13:34

v1.0.0 最新 2026-4-15 13:34
- Initial release of "news-crawler": an automated tool for fetching and summarizing news from specified websites or RSS feeds.
- Provides scripts for retrieving news lists and detailed content: `rss_fetcher.py` for RSS sources, `crawl.py` for web pages.
- Supports structured daily news report generation, including content extraction and summarization.
- Includes usage instructions, workflow, and output formats.
- Features guidance on ethical crawling and extensibility for additional features.

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
返回顶部