PDF视觉阅读器

PDF视觉阅读器 — 将PDF转换为图片，通过AI视觉模型理解PDF内容。当用户发送PDF文件或提供PDF路径，需要理解、分析、总结PDF内容时使用。能力： - 将PDF每页渲染为高清PNG图片（PyMuPDF） - 使用AI视觉模型分析图片内容（中英文均可） - 支持幻灯片型、图片型、扫描件型PDF - 自动识别水印、表格、图表、数字 - 输出一页或多页的详细内容描述使用方式： 1. 接收PDF文件路径或Telegram文件 2. 提取PDF为图片 3. 分批次用视觉AI分析（每批4-5页） 4. 整合结果，可选：摘要整理、要点提炼、知识归档

itixobepafi130-ctrl@itixobepafi130-ctrl

Install

openclaw skills install @itixobepafi130-ctrl/pdf-vision-reader

PDF视觉阅读器 (pdf-vision-reader)

工作流程

text

用户发送PDF
    ↓
提取PDF页面为PNG图片（PyMuPDF, 2x缩放）
    ↓
分批次用视觉AI分析（每批4-5页）
    ↓
整合视觉分析结果
    ↓
可选后续处理：
  - 整理为结构化摘要
  - 提炼关键数据/要点
  - 归档至 memory/ 目录
  - 回答用户具体问题

使用场景

用户发来 PDF 需要分析理解
图片型/幻灯片型 PDF 无法用文字提取
扫描件 PDF 识别
需要理解 PDF 中的图表、数据、布局信息

输出格式

建议输出结构：