返回顶部
m

multimodal-parser多模态解析器

Unified multi-modal content parser for images, PDF, DOCX, audio, auto OCR/transcription, output structured text for LLM processing

作者: admin | 来源: ClawHub
源自
ClawHub
版本
V 1.0.1
安全检测
已通过
511
下载量
免费
免费
0
收藏
概述
安装方式
版本历史

multimodal-parser

📄 多模态内容解析器

核心亮点

  1. 1. 🔄 统一接口:一套API支持图片/PDF/Word/音频4大类格式解析,无需对接多个服务
  2. 🚀 开箱即用:内置OCR、音频转文字、文档解析能力,零配置即可使用
  3. 📝 多格式输出:支持纯文本/Markdown/结构化JSON三种输出格式,适配不同LLM处理需求
  4. 💡 友好错误提示:依赖缺失时自动给出安装命令,新手也能快速上手

🎯 适用场景

  • - 多模态Agent的内容解析层
  • 文档问答、知识库构建场景的文件预处理
  • 图片OCR识别、语音转文字需求
  • 批量文档解析与结构化处理

📝 参数说明
参数类型必填默认值说明
filepathstring-要解析的文件路径
filetype
string | 否 | auto | 文件类型:image/pdf/docx/audio/auto |

| output_format | string | 否 | text | 输出格式:text/markdown/structured | | options.ocrlang | string | 否 | chisim+eng | OCR识别语言 | | options.audio_model | string | 否 | base | Whisper模型大小(base/small/medium/large) | | options.pdfpagerange | tuple | 否 | undefined | PDF解析页码范围,如[1, 10]表示解析第1-10页 |

💡 开箱即用示例

图片OCR识别

typescript const result = await skills.multimodalParser({ file_path: ./resume.jpg, file_type: image, output_format: markdown });

PDF解析(指定页码范围)

typescript const result = await skills.multimodalParser({ file_path: ./document.pdf, output_format: structured, options: { pdfpagerange: [1, 50] // 只解析前50页 } });

音频转文字

typescript const result = await skills.multimodalParser({ file_path: ./meeting.mp3, options: { audio_model: small // 使用small模型,速度更快 } });

🔧 依赖安装

根据需要解析的文件类型安装对应依赖: bash

全量安装所有依赖(推荐)

macOS

brew install tesseract tesseract-lang poppler pandoc pip install openai-whisper ffmpeg

Ubuntu/Debian

apt install tesseract-ocr tesseract-ocr-chi-sim poppler-utils pandoc ffmpeg pip install openai-whisper

技术实现说明

  • - 基于成熟的开源工具链(Tesseract/Poppler/Whisper/Pandoc)
  • 自动文件类型检测,无需手动指定格式
  • 模块化设计,可轻松扩展支持更多格式
  • 输出格式标准化,直接可被LLM处理

标签

skill ai

通过对话安装

该技能支持在以下平台通过对话安装:

OpenClaw WorkBuddy QClaw Kimi Claude

方式一:安装 SkillHub 和技能

帮我安装 SkillHub 和 multimodal-parser-1776165001 技能

方式二:设置 SkillHub 为优先技能安装源

设置 SkillHub 为我的优先技能安装源,然后帮我安装 multimodal-parser-1776165001 技能

通过命令行安装

skillhub install multimodal-parser-1776165001

下载

⬇ 下载 multimodal-parser v1.0.1(免费)

文件大小: 5.78 KB | 发布时间: 2026-4-15 11:50

v1.0.1 最新 2026-4-15 11:50
- Removed the skill.yaml file to streamline configuration.
- Updated SKILL.md: moved metadata (name, slug, description) into frontmatter.
- Cleaned up documentation structure by removing version, author, license, keywords, runtime, and entry fields from SKILL.md frontmatter.

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
返回顶部