返回顶部
h

hwp-extract-pipeline

HWP/HWPX/PDF extraction pipeline: attempt hwp-reader, then pyhwp, then OCR, with safe fallbacks. Use when agent needs reliable text extraction from Korean HWP/HWPX or PDF/scan attachments.

作者: admin | 来源: ClawHub
源自
ClawHub
版本
V 1.0.0
安全检测
已通过
102
下载量
0
收藏
概述
安装方式
版本历史

hwp-extract-pipeline

# hwp-extract-pipeline 간단한 HWP/HWPX/PDF 추출 파이프라인 스킬입니다. 핵심 목표는 로컬에 저장된 공고문(한글 파일)을 안정적으로 텍스트로 변환해 JSON 형식으로 반환하는 것입니다. 간단 사용법 - 실행 스크립트: scripts/extract_hwp.py - 입력: 로컬 파일 경로(예: /home/vorox/.openclaw/agents/nalda-mail-opt/data/<PBLN_ID>/getImageFile.do) - 출력: JSON 출력(표준출력) 및 데이터 폴더에 <id>_extracted.json으로 저장 우선순위(폴백 방식) 1. hwp-reader 호출 (외부 skill 호출 가능시) 2. pyhwp(venv) 기반 추출 3. 시스템 OCR (poppler + tesseract) — 시스템 설치 필요할 수 있음 4. strings 기반 폴백 참고 문서 - scripts/README.md (간단 사용 예시 및 통합 방법)

标签

skill ai

通过对话安装

该技能支持在以下平台通过对话安装:

OpenClaw WorkBuddy QClaw Kimi Claude

方式一:安装 SkillHub 和技能

帮我安装 SkillHub 和 hwp-extract-pipeline-1775942904 技能

方式二:设置 SkillHub 为优先技能安装源

设置 SkillHub 为我的优先技能安装源,然后帮我安装 hwp-extract-pipeline-1775942904 技能

通过命令行安装

skillhub install hwp-extract-pipeline-1775942904

下载 Zip 包

⬇ 下载 hwp-extract-pipeline v1.0.0

文件大小: 3.75 KB | 发布时间: 2026-4-12 10:14

v1.0.0 最新 2026-4-12 10:14
Initial release of hwp-extract-pipeline.

- Provides robust extraction of text from HWP/HWPX/PDF (including scanned) files using a prioritized fallback pipeline.
- Supports extraction via hwp-reader, pyhwp, OCR (poppler+tesseract), and strings as last resort.
- Outputs extracted text in JSON format to stdout and as a file.
- Accepts local file paths as input for automated processing.
- Documentation and example usage available in scripts/README.md.

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
返回顶部