Install
openclaw skills install pdf-masterUniversal PDF intelligent processing system v2.1 with 33 capabilities across 5 AI-powered cores, 4 professional extensions, 7 scenario barriers, 9 value-adds, and 5 gap-fillers + 3 new enterprise capabilities. Built on Docling/Marker/OpenParse enterprise-grade document intelligence stack. Features AI-driven fidelity conversion, enhanced OCR with professional templates, multimodal RAG Q&A, intelligent layout-preserving editing with font matching, PDF multi-document smart splitting, PDF→CAD conversion, cross-software collaboration layer, enterprise DRM with automated audit reports, batch contract comparison, and team password vault. Feishu Lark native. Every output includes time-cost comparison against manual work.
openclaw skills install pdf-master一站式 PDF 处理系统,33项精准能力,不是"功能堆砌"而是"手术刀级痛点歼灭"。每个能力都回答三个问题:免费工具的坑在哪?我们怎么做到更精细?优越在哪?
2.1 核心升级:
核心价值主张:免费工具让你"勉强能用",我们让你"零妥协"——精度、速度、安全、合规、协作,每一项都比行业标准高一个段位。
职场场景:收到 PDF 合同/标书/论文需要修改,免费工具转 Word 后排版全乱、公式变图片、表格变成文本框堆叠、矢量图变成位图。 免费工具的坑:字体丢失、表格变图片/文本框、页眉页脚错位、图片移位、LaTeX公式无法编辑、矢量图位图化、多栏混排变单栏。 我们的解法(精细四阶管道):
职场场景:纸质发票、手写签名单据、扫描版合同、手机拍照的会议纪要,需要变成可搜索/可编辑内容。原始扫描件有阴影、手指遮挡、页面弯曲、打印模糊。企业用户还需要针对特定证件类型的高精度结构化提取。 免费工具的坑:中文识别率低、特殊符号乱码、表格识别错位、有水印/页数限制、不支持批量、阴影区域识别成黑块、手指挡住内容、弯曲页面文字变形。通用OCR提取营业执照后还要手动拆代码和法人姓名。 我们的解法(精细六阶管道 + 2.1专业模板库):
职场场景:发现合同里一个错别字或产品手册要改一个参数,手头没有原始文档,传统PDF编辑一改整段排版就崩。替换字体时用户经常丢失设计感,尤其是中文字体缺乏时替换为黑体/宋体,破坏了原有设计语言。 免费工具的坑:只能"注释"不能真正修改文字、改文字会破坏整段排版(行距字距全乱)、改图片需要外部PS、改后字体不匹配、链接失效。替换字体时中文字体缺乏,替换为黑体/宋体破坏了原有设计语言。 我们的解法(精细四阶管道 + 2.1字体仿真):
职场场景:对外发送机密报价单、技术规格书,怕被二次转发/截图泄露;内部文件需要精确到人的权限控制(只读/禁止打印/过期失效)。企业合规团队需要一键导出的人类可读审计报告,直接交给内部合规部门或外部审计机构。 免费工具的坑:只能加简单密码、水印是静态文字无法追溯、权限控制形同虚设(截屏无法防范)、没有法律效力。当前的区块链存证和审计日志是技术层级的,企业合规团队需要的是一键导出的人类可读审计报告。 我们的解法(精细多层防护 + 2.1自动化审计):
职场场景:认证工程师归档 100 份测试报告,需要按章节拆开并重命名;市场部将 20 个 PDF 合并成方案画册并自动生成目录。 免费工具的坑:限制单文件/少量页数、不能按规则批量重命名、合并后没有目录、格式不统一、拆分规则单一。 我们的解法(精细五阶管道):
| # | 能力 | 触发指令 | 输出 | 2.0升级点 |
|---|---|---|---|---|
| 6 | 表格精准提取 | "提取表格" / "表格转Excel" | CSV / Excel / 飞书多维表格 | 升级:支持嵌套表格、跨页表格、表头重复识别、合并单元格保持 |
| 7 | 图文混排解析 | "提取图文" / "解析内容" | Markdown / 结构化文本 | 升级:Docling驱动,版面保持率97.5%,图片自动提取并标注位置 |
| 8 | 智能摘要 | "摘要" / "总结" / "提炼重点" | 要点摘要 | 支持长文档(200页+)分块摘要+整体汇总 |
| 9 | 自动脱敏(+团队共享密码托管 2.1新增) | "脱敏" / "打码" / "隐藏敏感信息" / "团队加密共享" / "一键解密" / "密码托管" | 脱敏后 PDF / 团队加密空间 | 升级:规则引擎+AI识别双模式,身份证号/银行卡/手机号/人名/公司名自动检测。2.1新增:团队加密空间统一存密码,成员一键调用,管理员设定有效期和访问次数 |
| 10 | 元数据清洗 | "清洗元数据" / "擦除痕迹" | 干净 PDF | 彻底清理作者/编辑时间/修订记录/批注者信息 |
| 11 | 名称/编号自动化 | "自动命名" / "重命名" | 新文件名 | 正则+AI双模式提取关键信息 |
| 12 | 两版 PDF 差异对比 | "对比" / "diff" / "版本差异" | 高亮差异报告 | 升级:像素级对比+文本级对比双模式,定位到具体字符 |
| 13 | 基于文档的多模态即问即答 | "问答" / "这份文件说了什么" / "问图表" / "多模态问答" / "这张图说了什么" / "表格问题" | 答案(附页码引用+视觉定位) | 2.1升级:RAG架构+本地27B模型+多模态理解,支持200页+长文档。新增图表问答、公式问答、批注意见识别、印章与手写签名识别、视觉页码定位(图片截取定位答案位置)。知识问答精准度从70%→92% |
| 14 | 规格参数自动对比矩阵 | "规格对比" / "参数对比" | 对比表格 | AI自动识别规格段落,生成多产品对比表 |
职场场景:扫描件合同/图纸太大,微信传不了(100MB限制)、邮件发不出去(25MB限制)。 免费工具的坑:全局压缩文字图片一起压、没有智能分层、无法精确控制目标大小、压缩后公章模糊。 我们的解法:AI智能分层(文字无损矢量保持+图片自适应降采样+线框图特殊保护)→ 目标大小模式(指定"压到10MB"自动迭代优化)→ 压缩前后对比预览 → 公章/签名区域特殊保护 优越点:文字放大300%无模糊,公章/签名可辨认,线条图无锯齿,支持精确到MB的目标大小。 触发指令:"压缩" / "缩小" / "压到10MB以下" / "分层压缩" 付费话术:"手动用PS逐页调压缩通常需要 1 小时,现在 30 秒搞定。文字无损,图片自动适配,还能精确压到你要的大小"
职场场景:收到英文芯片 Datasheet、日文技术规格书、外文合同,需要翻译给团队看。 免费工具的坑:翻译后排版全毁、专业术语翻错(如 flip-flop 翻成"人字拖")、不支持中日韩混排、无法双语对照。 我们的解法:段落级翻译保留原排版坐标(Marker驱动元素定位)→ 内置行业术语库(法律/芯片/医疗/机械)→ 支持自定义术语表上传 → 双语对照输出(左原文右译文/上下对照/段落内对照)→ 翻译后排版验证 优越点:排版保留率98.5%,术语准确率≥96%,支持中日英韩德混排。 触发指令:"翻译" / "翻成中文" / "双语对照" / "术语库翻译" 付费话术:"请翻译公司翻这份文档通常要 500-1000 元等 2-3 天,现在 3 分钟搞定,排版几乎不动,专业术语还准"
职场场景:法务/采购收到50页合同,逐页找风险条款;中小企业没有专职法务。法务同时审阅20份供应商合同,要找出哪几份偏离了公司的标准条款库;采购要对比3家竞品合同中的付款条款差异。 免费工具的坑:通用建议不针对具体合同、没有风险分级、无法标注具体位置。法务审20份合同逐份对照标准条款,看完第5份已经头晕了。 我们的解法:
职场场景:财务每月整理几百张发票,手动录入金额/税号/日期,还要逐张验真、去重。 免费工具的坑:OCR识别率低、没有验真、不支持批量、不能去重、无法生成报销单。 我们的解法:批量 OCR 识别(≥98.5%识别率)→ 自动验真(对接税务接口:真票/假票/作废/重复/异常状态)→ 智能去重(基于发票代码+号码哈希)→ 生成报销单(按员工/部门/项目分类汇总)→ 电子归档(按年月自动建文件夹+命名)→ 支持火车票/机票/出租车票/电子发票统一处理 优越点:识别+验真+去重+报销单全自动,假票一个不漏,支持多种票据类型。 触发指令:"归档发票" / "报销汇总" / "验真去重" / "票据整理" 付费话术:"财务手动整理100张发票通常需要 4-6 小时,现在 10 分钟搞定。假票、废票、重复票一个都跑不了"
职场场景:异地员工签劳动合同、销售批量签报价单、项目合同三级审批。 免费工具的坑:手写图片没有法律效力、批量签章手动拖放200份要两天、多人签批没有流程控制。 我们的解法:
职场场景:公司调价200份报价单统一改价格;公司搬家更新地址电话;品牌升级换Logo。批量替换Logo/图片等视觉内容时,用户需要在替换前逐页预览实际效果,防止视觉错位或颜色偏差。 免费工具的坑:只能逐份打开修改、转Word批量替换再转回格式又乱、不支持正则、无法预览差异。当前"差异预览确认"是文本级预览,批量替换视觉内容时无法预览实际效果。 我们的解法:
职场场景:HR做入职登记表、市场部做调研问卷、行政做办公用品申请单。 免费工具的坑:只能买Adobe Acrobat Pro(3000+/年)、字段一个个手动拖放、没有自动计算、没有联动。 我们的解法:
职场场景:建筑设计师量墙距、机械工程师算零件面积、项目经理核对平面图。 免费工具的坑:PDF阅读器没有测量、CAD软件几万块且PDF导入比例尺错乱、手动换算易错。 我们的解法:
职场场景:销售给客户发产品手册、市场部做品牌宣传册。 免费工具的坑:PDF死板、转电子书后排错乱、手机打开变形。 我们的解法:
职场场景:设计部做好宣传册发给印刷厂,反复沟通文件不合格。 免费工具的坑:不懂印刷参数、加出血区不规范、文字没转曲、图片分辨率不够。 我们的解法:
职场场景:招标公告隐藏报价、离职交接删除身份证号、法院卷宗抹除隐私。 免费工具的坑:"涂黑"只是覆盖矩形底层文本还在、一些工具只是隐藏图层、没有删除验证、无法律证明。 我们的解法:
职场场景:用手机拍照的文档有阴影、手指按在纸上、页面弯曲、灯光不均、打印模糊,传统OCR识别率低,肉眼看着也难受。 免费工具的坑:没有专门的文档画质增强工具、用PS手动调一页要10分钟、阴影去不掉、弯曲页面无法展平、手指遮挡无法修复。 我们的解法(专业文档修复管道):
职场场景:收到几百页的技术手册、标书、论文集,没有书签,翻找某个章节要翻半天。 免费工具的坑:只能手动一页页加书签、无法识别章节层级、标题识别不准、页码对不上。 我们的解法:
职场场景:企业有视障员工需要阅读PDF;政府/学校/大型企业网站需要满足无障碍法规(中国《无障碍环境建设法》、美国ADA、欧盟EN 301 549);被投诉PDF无法被屏幕阅读器朗读。 免费工具的坑:99%的PDF工具不支持Accessibility、手动加标签需要Adobe Acrobat Pro且一页页操作极其繁琐、不知道什么是WCAG合规、标签结构容易出错。 我们的解法:
职场场景:会议纪要手写草稿、课堂笔记、客户拜访手写记录,需要整理成电子文档;手写待办事项容易遗忘。 免费工具的坑:普通OCR手写识别率极低(<60%)、连笔字/潦草字无法识别、不分段落和结构、表格/图示无法处理、待办事项需手动提取。 我们的解法:
职场场景:企业档案管理需要符合长期保存标准;政府/国企/金融机构要求PDF/A归档;担心10年后PDF打不开因为字体缺失/格式过时。 免费工具的坑:普通工具不支持PDF/A标准、不知道选哪个级别(PDF/A-1a/2a/3a/b/u)、字体嵌入问题无法自动修复、转换后合规性无法验证、色彩空间不对。 我们的解法:
职场场景:HR收到一个包含50份简历的PDF大包;财务收到一个混合了发票、收据、合同的PDF;法务收到包含诉状、附件、宣誓书的案件卷宗包。 免费工具的坑:最多只能按页范围或书签手动拆,50份简历手动拆要45分钟,还容易拆错页。只能按章节标题拆分,无法解决多文档混合包的问题——文档里可能由多个独立的、不同类型的子文档拼成一个PDF。 我们的解法(AI内容感知拆分):
职场场景:建筑设计师收到PDF图纸要导入CAD软件修改;机械工程师需要将PDF工程图转回可编辑的DWG格式;施工方只有PDF图纸但需要在CAD中标注修改。 免费工具的坑:普通PDF转CAD工具转换后线型丢失、图层全部合并到一个图层、尺寸标注变成文本对象而非可编辑标注、比例尺错乱。转后丢失字母"O"等问题频发。 我们的解法(高保真PDF→CAD转换):
职场场景:客户发来PDF需要团队多人协同批注,但5个人用5种不同软件(Adobe Acrobat、福昕、WPS、浏览器、iPad标记),批注意见互相不兼容、水印重叠、导出丢失。 免费工具的坑:Adobe Acrobat批注在福昕中可能显示为"未知对象"、批注文字样式错乱、高亮颜色丢失甚至完全看不到。没有工具能一键将多来源批注意见合并并统一格式。 我们的解法(跨软件协作兼容引擎):
2.0版本增加精细分类路由:
| 类型 | 检测方式 | 路由管道 | 工具链 |
|---|---|---|---|
| 文本PDF | 有完整文本层+标准字体 | 直接处理管道 | Docling / PyMuPDF |
| 扫描PDF | 无文本层,纯图片 | OCR预处理→画质增强→识别 | AI画质修复→PaddleOCR→LLM校正 |
| 混合PDF | 部分文本+部分图片/扫描 | 混合管道 | 页面级智能路由 |
| 复杂排版 | 多栏/杂志/学术论文 | 版面分析优先管道 | Marker / OpenParse |
| 大文件 | >50页或>50MB | 分块处理管道 | 异步队列+流式处理 |
解析指令,匹配33项能力。每项能力执行"四阶质量管道":
复杂文档的AI处理升级:
每项输出必须包含"时间节省/成本节省/风险消除"量化信息:
| 层级 | 1.3版本 | 2.0升级方案 |
|---|---|---|
| 文档解析引擎 | PyMuPDF, pdfplumber, LayoutParser | Docling (IBM企业级) + Marker (公式/学术优化) + OpenParse (版面分析) + PyMuPDF辅助 |
| OCR与画质 | PaddleOCR, Tesseract + OpenCV基础预处理 | PaddleOCR+手写增强 + U2-Net文档分割 + DocUNet曲线展平 + 图像修复inpainting + 超分重建 |
| 转换引擎 | LibreOffice headless, pdf2image | Docling/Marker双引擎 + LibreOffice辅助 + 矢量图保留管道 |
| AI/LLM层 | Cloud model + local 27B | 多模态LLM (文档理解) + local 27B (敏感文档) + 行业术语库 |
| RAG/问答 | Chroma/FAISS基础 | 优化RAG架构 + 200页+长文档分块策略 + 精确引用定位 |
| 差异对比 | pdf-diff基础 | 像素级对比 + 文本级对比双模式 |
| 安全与DRM | PyPDF2, pikepdf基础 | AES-256+国密SM2/SM4 + 双层数字水印 (可见+不可见) + DRM权限引擎 + 区块链存证 |
| 队列与异步 | 基础异步队列 | 增强任务队列 + 流式进度反馈 + 断点续传 |
| 压缩 | PyMuPDF + OpenCV基础 | AI分层压缩引擎 (文字/图片/线框分层处理) + 目标大小迭代优化 |
| 翻译 | Cloud translation API基础 | Cloud translation + 术语库 + 坐标映射保留 (Marker驱动) |
| 合同审查 | Legal LLM + rule engine | Legal LLM + 扩展风险规则库 + 公司条款模板比对 |
| 发票OCR | Specialized invoice OCR | 增强发票OCR + 税务API + 多票据类型 (火车票/机票/出租车) |
| 电子签名 | CA certificate基础 | CA证书+国密SM2 + AI定位 + 审批引擎 + 区块链存证 |
| 批量替换 | Rule engine + regex | 增强规则引擎 + 图片哈希 + 差异预览 + 一键回滚 |
| 表单构建 | Field auto-detection基础 | AI字段识别增强 + 计算引擎 + 条件逻辑 + 飞书数据汇总 |
| 图纸测量 | Scale auto-detection基础 | AI比例尺识别 + 多维度测量 + 批量测量导出 |
| 翻页电子书 | HTML5 Canvas基础 | HTML5 Canvas 60fps + 富媒体嵌入 + 离线包 + 自定义域名 |
| 印刷导出 | CMYK基础转换 | ICC配置管理 + PDF/X验证 + 预检报告 + 手机EPUB导出 |
| 永久删除 | Content stream removal | 三阶验证删除 + AI图像修复inpainting + 法律级删除证书 |
| ★扫描增强 (新增) | — | U2-Net + DocUNet + inpainting + 超分 |
| ★书签生成 (新增) | — | Marker/Docling章节识别 + 层级目录 + 页码校正 |
| ★无障碍 (新增) | — | 标签树生成 + Alt文本 + WCAG 2.1 AA验证 |
| ★手写识别 (新增) | — | PaddleOCR手写增强 + 多模态LLM + 结构化整理 |
| ★PDF/A归档 (新增) | — | ISO 19005转换 + 字体嵌入修复 + 合规验证报告 |
| ★多文档拆解 (2.1新增) | — | AI内容感知拆分 + 命名规则 + 类别路由 |
| ★PDF转CAD (2.1新增) | — | 线型识别 + 图层提取 + 尺寸语义识别 + 图框解析 |
| ★跨软件兼容 (2.1新增) | — | 多源批注聚合 + 兼容性检测 + 通用格式输出 |
长操作发送实时精细化进度:
| 限制项 | 1.3版本 | 2.0版本 | 2.1版本 |
|---|---|---|---|
| 单文件大小 | 100MB | 200MB(大文件自动分块) | 200MB(保留) |
| 单次页数 | 200页 | 500页(长文档优化处理) | 500页(保留) |
| OCR批量页数 | ≤50页 | ≤100页 | ≤100页(保留) |
| 并发任务 | ≤3 | ≤5 | ≤5(保留) |
| 单次任务超时 | 5分钟 | 10分钟(复杂任务如翻译/增强自动延长) | 10分钟(保留) |
| 敏感文档处理 | local 27B | local 27B + 本地OCR(不上云) | local 27B + 本地OCR(保留) |
| 批量替换 | 500文件 | 500文件(保留) | 500文件(保留) |
| 永久删除 | 200文件 | 200文件(保留) | 200文件(保留) |
| 扫描增强 | — | ≤50页/批次 | ≤50页/批次(保留) |
| 手写识别 | — | ≤20页/批次(手写计算量大) | ≤20页/批次(保留) |
| PDF/A归档 | — | ≤100文件/批次 | ≤100文件/批次(保留) |
| 无障碍标签 | — | ≤200页/任务 | ≤200页/任务(保留) |
| 新增-多文档拆解 | — | — | ≤200页混合包/任务 |
| 新增-PDF转CAD | — | — | ≤50页图纸/任务 |
| 新增-跨软件兼容 | — | — | ≤500页/任务 |
references/command-guide-v2.md(2.0新增指令手册)references/tech-spec-v2.md(2.0技术架构详细说明)references/feishu-setup-v2.md(2.0飞书集成增强配置)references/ocr-config-v2.md(2.0包含扫描增强和手写识别配置)references/accessibility-setup.md(新增-无障碍配置指南)references/pdfa-archival-guide.md(新增-归档转换操作手册)config/pdf-master-agent-v2.md(2.0完整Agent训练文件含30项能力Few-Shot示例)references/quality-benchmarks.md(2.0新增-各项能力质量基准指标)| 版本 | 能力数 | 关键升级 |
|---|---|---|
| 1.0 | 基础 | 核心功能上线 |
| 1.3 | 25项 | 五大核心+四大扩展+七大壁垒+九大增值 |
| 2.1 | 33项 | 3项新增能力(多文档智能拆解/PDF→CAD/跨软件协作兼容)+5项深度优化(多模态RAG/专业OCR模板/字体智能匹配/视觉比对审核/自动化审计)+2项微能力(团队密码托管/批量合同比对) |
| 2.0 | 30项 | 技术栈升级(Docling/Marker/OpenParse)+精细度革命+五大新增能力(扫描增强/书签生成/无障碍/手写识别/PDF/A归档) |