Hwp Extract Pipeline

Workflows

HWP/HWPX/PDF extraction pipeline: attempt hwp-reader, then pyhwp, then OCR, with safe fallbacks. Use when agent needs reliable text extraction from Korean HWP/HWPX or PDF/scan attachments.

Install

openclaw skills install hwp-extract-pipeline

hwp-extract-pipeline

간단한 HWP/HWPX/PDF 추출 파이프라인 스킬입니다. 핵심 목표는 로컬에 저장된 공고문(한글 파일)을 안정적으로 텍스트로 변환해 JSON 형식으로 반환하는 것입니다.

간단 사용법

실행 스크립트: scripts/extract_hwp.py
입력: 로컬 파일 경로(예: /home/vorox/.openclaw/agents/nalda-mail-opt/data/<PBLN_ID>/getImageFile.do)
출력: JSON 출력(표준출력) 및 데이터 폴더에 <id>_extracted.json으로 저장

우선순위(폴백 방식)

hwp-reader 호출 (외부 skill 호출 가능시)
pyhwp(venv) 기반 추출
시스템 OCR (poppler + tesseract) — 시스템 설치 필요할 수 있음
strings 기반 폴백

참고 문서

scripts/README.md (간단 사용 예시 및 통합 방법)

Hwp Extract Pipeline

Install

hwp-extract-pipeline

Related skills