返回顶部
n

news-to-markdown-skill新闻转Markdown

一键将新闻文章转换为 Markdown,支持双引擎内容提取、智能封面图选择、图片下载到本地、三层 HTML 抓取策略和多平台专项优化。支持13个平台:头条、微信公众号、36kr、知乎、掘金、简书、CSDN、人人都是产品经理、开源中国、B站专栏、SegmentFault、博客园、小红书

作者: admin | 来源: ClawHub
源自
ClawHub
版本
V 3.1.4
安全检测
已通过
534
下载量
免费
免费
1
收藏
概述
安装方式
版本历史

news-to-markdown-skill

news-to-markdown 技能

📋 概述

这是一个专门用于将新闻文章转换为 Markdown 格式的 ClawHub 技能。它结合了智能内容提取和高质量格式转换,能够自动识别新闻正文、过滤噪音内容,并输出格式化的 Markdown 文档。

核心特点(先看这个)

一眼看懂:这个技能能帮你什么?

  • - 提取更准:双引擎内容提取,正文和元数据兼顾
  • 图片更稳:支持下载到本地,避免远程图片失效
  • 抓取更稳:三层抓取策略,动态页面也能处理
  • 平台更全:内置 10 个主流内容平台专项优化
  • 输出可发布:Markdown 质量高,支持后续自动化发布

1) 提取更准:双引擎内容提取

  • - Readability:提取完整正文,保留图片和多媒体
  • news-extractor-node:提取标题、作者、发布时间等元数据
  • 自动选择最佳结果,减少漏提取和误提取

2) 图片更稳:下载到本地 + 智能封面

  • - 支持将远程图片下载到本地目录并使用相对路径
  • 避免 URL 签名过期和防盗链导致的图片失效
  • 智能封面图选择:优先 og:image / twitter:image,失败再降级
  • 完美配合 wechat-md-publisher 使用

3) 抓取更稳:三层抓取策略

  • - curl → wget → Playwright 自动降级
  • 静态页优先快速抓取,动态页自动启用浏览器渲染
  • 兼顾速度与成功率

4) 平台更全:10 平台专项优化

  • - ✅ 头条、微信公众号、人人都是产品经理
  • ✅ 掘金、简书、CSDN、开源中国
  • ✅ B站专栏、SegmentFault、博客园

5) 输出可发布:质量与扩展性并重

  • - 基于 html-to-markdown-node 的高质量转换引擎
  • 图片保护机制,避免纯图片段落被误过滤
  • 支持自定义平台适配器,便于持续扩展

这是 news-to-markdown 核心库的轻量级 CLI 包装。

🎯 使用场景

⚠️ 安全风险提示

供应链风险:本技能通过 npx 动态拉取并执行第三方 npm 包 news-to-markdown。使用前请审计源码:

  • - 源码仓库: https://github.com/sipingme/news-to-markdown
  • 审计入口: https://github.com/sipingme/news-to-markdown/blob/main/src/index.ts

场景 1:基础转换(推荐:下载图片到本地)⭐

用户意图

  • - 把这个头条文章转成 Markdown
  • 提取这篇文章,图片也要保存

AI 调用
bash
npx --yes news-to-markdown@^3.1.3 \
--url https://www.toutiao.com/article/123 \
--download-images \
--output-dir ./article

为什么推荐下载图片?

  • - 头条图片 URL 包含签名和过期时间,几小时后会失效
  • 本地图片更可靠,不受网络波动影响
  • 完美配合 wechat-md-publisher 发布到微信公众号

场景 2:快速转换(不下载图片)

用户意图

  • - 快速看一下这篇文章内容
  • 只要文字,不需要图片

AI 调用
bash
npx --yes news-to-markdown@^3.1.3 \
--url https://www.toutiao.com/article/123 \
--no-download-images \
--output article.md

输出

  • - 包含元数据的完整 Markdown 文件
  • 自动过滤广告和评论
  • 收集所有图片链接

场景 3:批量采集新闻

用户意图

  • - 把这些新闻都保存下来
  • 批量下载这个列表的文章

AI 调用
bash

循环处理多个 URL


for url in ${urls[@]}; do
npx --yes news-to-markdown@^3.1.3 --url $url --output articles/$(basename $url).md
done

场景 4:处理动态网站

用户意图

  • - 这个网站需要 JavaScript 才能显示内容
  • 页面是动态加载的

AI 行为

  • - 自动检测并使用 Playwright
  • 等待页面完全加载
  • 提取渲染后的内容

场景 5:自定义提取

用户意图

  • - 只要正文,不要其他的
  • 去掉侧边栏和评论

AI 调用
bash
npx --yes news-to-markdown@^3.1.3 \
--url https://example.com/news \
--noise .sidebar,.comments,.ads \
--no-metadata

🔧 命令详解

npx news-to-markdown

从 URL 提取新闻并转换为 Markdown。

bash
npx --yes news-to-markdown@^3.1.3 --url [选项]

参数

参数类型必需说明示例
--urlstring新闻文章的 URLhttps://example.com/news
--output
string | ❌ | 输出文件路径 | article.md | | --download-images | flag | ❌ | 下载图片到本地 ⭐ 新增 | - | | --output-dir | string | ❌ | 输出目录(用于图片下载) | ./output | | --selector | string | ❌ | CSS 选择器,指定提取区域 | article.content | | --noise | string | ❌ | 要移除的元素(逗号分隔) | .ad,.sidebar,.comments | | --no-metadata | flag | ❌ | 不包含元数据(标题、作者、时间) | - |

返回值

成功时
json
{
success: true,
metadata: {
title: 文章标题,
author: 作者名,
publishTime: 2026-03-22 10:30:00,
imageCount: 3,
contentLength: 1234
}
}

失败时
json
{
success: false,
error: 错误信息
}

输出格式

标准格式(包含元数据):
markdown

文章标题

作者: 张三
发布时间: 2026-03-22 10:30:00
来源: https://example.com/news/article



正文内容...

图片列表

  • - image1
  • image2

简洁格式(--no-metadata):
markdown
正文内容...

🚀 工作流程

1. HTML 抓取(三层策略)

尝试 curl (最快,1-3秒)
↓ 失败
尝试 wget (备选)
↓ 失败
使用 Playwright (支持 JS,5-10秒)

成功获取 HTML

特点

  • - ✅ 自动选择最快的方式
  • ✅ 失败时自动降级
  • ✅ 显示当前使用的方法
  • ✅ 整体成功率 95%+

2. 内容提取

使用 news-extractor-node 的文本密度算法:

javascript
const extractor = new NewsExtractor();
const news = extractor.extract(html, {
url: url,
noiseSelectors: [.ad, .comment, aside]
});

提取内容

  • - 标题(多种策略)
  • 作者(正则匹配 + 选择器)
  • 发布时间(多种日期格式)
  • 正文(文本密度算法)
  • 图片(自动收集)

3. Markdown 转换

使用 @siping/html-to-markdown-node:

javascript
const markdown = convertString(news.contentHtml, {
domain: url
});

转换特点

  • - 保留标题层级
  • 正确处理列表
  • 转换代码块
  • 解析相对 URL
  • 智能转义

📊 性能指标

指标curlwgetPlaywright
速度1-3秒2-4秒5-10秒
成功率
70% | 75% | 95% | | JS 支持 | ❌ | ❌ | ✅ | | 资源占用 | 极低 | 低 | 中 |

整体性能

  • - 平均响应时间:2-5 秒
  • 整体成功率:95%+

标签

skill ai

通过对话安装

该技能支持在以下平台通过对话安装:

OpenClaw WorkBuddy QClaw Kimi Claude

方式一:安装 SkillHub 和技能

帮我安装 SkillHub 和 news-to-markdown-skill-1776100816 技能

方式二:设置 SkillHub 为优先技能安装源

设置 SkillHub 为我的优先技能安装源,然后帮我安装 news-to-markdown-skill-1776100816 技能

通过命令行安装

skillhub install news-to-markdown-skill-1776100816

下载

⬇ 下载 news-to-markdown-skill v3.1.4(免费)

文件大小: 11.99 KB | 发布时间: 2026-4-14 13:18

v3.1.4 最新 2026-4-14 13:18
- Updated core dependency version to news-to-markdown@^3.1.3 and related references in documentation, config, and scripts.
- Revised usage examples, documentation, and command parameters to reflect the new version.
- No functional interface changes; maintenance and doc alignment only.

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
返回顶部