百度文档解析pipeline-parser

调用百度文档解析API解析文档。支持PDF、Word、Excel、PPT、图片等18+格式。提取文本、表格、版面分析、OCR识别及RAG文档分块。当用户需要解析文档、提取文本/表格、分析文档结构、处理扫描件时使用。触发词:文档解析、PDF解析、Word解析、表格提取、OCR、文档分析、提取文本、文档结构、扫描识别。

Audits

Pass

Install

openclaw skills install baidu-doc-pipeline-parser

百度文档解析 Skill

基于百度智能文档分析平台 API,提供文档解析能力。

功能概述

  • 支持对 doc、pdf、图片、xlsx 等 18 种格式文档进行解析
  • 输出文档的版面、表格、阅读顺序、标题层级、旋转角度等信息
  • 支持中、英、日、韩、法等 20 余种语言类型
  • 可返回 Markdown 格式内容,将非结构化数据转化为易于处理的结构化数据
  • 识别准确率可达 90% 以上
  • 文档分块(适用于 RAG 场景)

适用场景

当用户需要:

  • 解析 PDF、Word、Excel 等格式文档
  • 从文档中提取文本内容
  • 识别并提取表格数据
  • 分析文档结构(标题层级、章节、版面布局)
  • 对扫描件进行 OCR 文字识别
  • 将文档分块用于 RAG 应用

API 配置

环境变量(必须)

百度智能文档分析平台 领取免费测试资源

使用前请设置以下环境变量:

export BAIDU_DOC_AI_API_KEY="your_api_key"
export BAIDU_DOC_AI_SECRET_KEY="your_secret_key"

认证方式

通过 API Key 和 Secret Key 获取 access_token,有效期 30 天。

支持格式

版式文档:pdf, jpg, jpeg, png, bmp, tif, tiff, ofd, ppt, pptx

流式文档:doc, docx, txt, xls, xlsx, wps, html, mhtml

支持语言

CHN_ENG(中英文)、JAP(日语)、KOR(韩语)、FRE(法语)、SPA(西班牙语)、POR(葡萄牙语)、GER(德语)、ITA(意大利语)、RUS(俄语)、DAN(丹麦语)、DUT(荷兰语)、MAL(马来语)、SWE(瑞典语)、IND(印尼语)、POL(波兰语)、ROM(罗马尼亚语)、TUR(土耳其语)、GRE(希腊语)、HUN(匈牙利语)、THA(泰语)、VIE(越南语)、ARA(阿拉伯语)、HIN(印地语)

使用方式

python3 scripts/baidu_doc_parser.py --file_data <文件的base64编码>
python3 scripts/baidu_doc_parser.py --file_url <文件公网URL>

API 接口

文档解析 API 服务为异步接口,需要先调用提交请求接口获取 task_id,然后调用获取结果接口进行结果轮询。

提交请求接口

  • HTTP 方法:POST
  • 请求 URLhttps://aip.baidubce.com/rest/2.0/brain/online/v2/parser/task?access_token={token}
  • Content-Typeapplication/x-www-form-urlencoded

获取结果接口

  • HTTP 方法:POST
  • 请求 URLhttps://aip.baidubce.com/rest/2.0/brain/online/v2/parser/task/query?access_token={token}
  • Content-Typeapplication/x-www-form-urlencoded
  • 请求参数task_id(必填,提交请求时返回的 task_id)

请求参数

文件参数(必选,二选一)

参数必选类型说明
file_data和 file_url 二选一string文件 Base64 编码数据。版式文档:pdf, jpg, jpeg, png, bmp, tif, tiff, ofd, ppt, pptx;流式文档:doc, docx, txt, xls, xlsx, wps, html, mhtml。文档大小不超过 50M,PDF 最大支持 2000 页。若文档大小超过 50M,须从 file_url 方式上传。优先级:file_data > file_url
file_url和 file_data 二选一string文件数据 URL,长度不超过 1024 字节,支持单个 URL 传入。PDF 文档大小不超过 300MB,非 PDF 不超过 50M,PDF 最大支持 2000 页。请注意关闭 URL 防盗链
file_namestring文件名,请保证文件名后缀正确,例如 "1.pdf"

核心功能参数

参数必选类型可选值范围说明
recognize_formulaboolTrue/False是否对版式类型文档进行公式识别
analysis_chartboolTrue/False是否对统计图表进行解析
angle_adjustboolTrue/False是否对图片进行角度矫正
parse_image_layoutboolTrue/False是否返回文档中的图片位置信息

语言与格式参数

参数必选类型说明
language_typestring识别语种类型,默认为 CHN_ENG(中英文)
switch_digital_widthstring是否对数字进行全半角转换,默认为 auto。可选:auto(不转换)、half(半角输出)、full(全角输出)
html_table_formatbool是否将识别出的表格转换为 HTML 格式返回,default=True

文档分块参数

return_doc_chunks 为字典类型,用于返回文档切分后的片段数据(按语义、字数、标点):

参数必选类型默认值说明
switchboolFalse是否进行文档内容切分
split_typestrchunk切分方式:chunk(按 chunk_size 来切)/ mark(按 separators 来切)
separatorslist['。',';','!','?',';','!','?']切分标点
chunk_sizeint-1切分块的大小,-1 表示按照语义自动切分,不限定块的大小

返回结构

提交请求返回

字段类型说明
log_iduint64唯一的 log id,用于问题定位
error_codeint错误码
error_msgstring错误描述信息
result.task_idstring该请求生成的 task_id,后续使用该 task_id 获取审查结果

获取结果返回

字段类型说明
log_iduint64唯一的 log id
error_codeint错误码
error_msgstring错误描述信息
result.task_idstring任务 ID
result.statusstring任务状态:pending(排队中)、processing(运行中)、success(成功)、failed(失败)
result.task_errorstring解析报错信息,包含任务失败、额度不够
result.markdown_urlstring文档解析结果的 Markdown 格式链接,链接有效期 30 天
result.parse_result_urlstring文档解析结果的 BOS 链接(JSON),链接有效期 30 天

解析结果 JSON 结构(parse_result_url)

顶层结构

字段类型说明
file_namestring文档名称
file_idstring文档 ID
pageslist文件单页解析内容
chunkslist文件内容切分结果(return_doc_chunks.switch=True 时有值)

页面对象(pages[])

字段类型说明
page_idstring页码 ID
page_numint页码数
textstring当前页的所有纯文字内容
layoutslist页面内容版式分析的结果
tableslist页面表格解析结果
imageslist页面中图片解析结果
metadict页元信息

页面元信息(meta)

字段类型说明
page_widthint页面宽度
page_heightint页面高度
is_scanbool是否扫描件
page_angleint页面倾斜角度
page_typestring页面属性:text(正文)、contents(目录)、appendix(附录)、others(其他)
sheet_namestringExcel 的 sheet 名

版面元素(layouts[])

字段类型说明
layout_idstringlayout 元素唯一标志,格式 "xxxxx-layout-{global_layout_index}"
textstringlayout 对应的文本内容。注:当 type 为 table/image 时该字段为空,需根据 type 和 layout_id 分别到 tables/images 字段里找到对应内容
positionlist元素在页面中的位置 [x, y, w, h],左上角和宽高
typestring版面元素类型(见下表)
sub_typestring版面元素子类型(见下表)
parentstring标题层级树中父节点的 layout_id,若为一级标题则 parent 为 "root"
childrenlist标题层级树中子节点的 layout_id 列表

版面类型(type)

类型说明
para段落
table表格
image文档中的插图
head_tail页面顶部(页眉/页脚)
contents目录
seal印章
title标题
formula公式

子类型(sub_type)

  • title 类title_{n}(n 级标题,如 title_2 代表二级标题)、image_title(图标题)、table_title(表标题)
  • image 类chart(统计图表)、figure(普通插图)、QR_code(二维码)、Bar_code(条形码)

表格对象(tables[])

字段类型说明
layout_idstring与 layouts 中 type 为 table 的元素的 layout ID 对应
markdownstring表格内容的 Markdown 形式
table_title_idlist表格标题对应的 layout_id,默认为 null
positionlist边框数据 [x, y, w, h](以页面坐标为原点),版式格式时有效
cellslist单元格的内版面信息,layout 类型为表格时有值
matrixlist二位数组,表示表格内布局位置信息,每个元素对应 cells 列表中元素的索引
merge_tablestring跨页表格标记:begin(开始)、inner(中间,超过两页)、end(结束);非跨页表格该字段为空

图片对象(images[])

字段类型说明
layout_idstring与 layouts 中 type 为 image 的元素的 layout ID 对应
image_title_idlist图片标题对应的 layout_id,默认为 null
positionlist边框数据 [x, y, w, h]
content_layoutslist图片的内版面信息
data_urlstring图片存储链接
image_descriptionstring对统计图表进行内容解析和描述,输出结果为 JSON 字符串

分块对象(chunks[])

字段类型说明
chunk_idstring切片的 ID
contentstring切片的内容
typestring切片类型:text 或 table
meta.titlelistchunk 所属的多级标题内容
meta.positionlistchunk 的位置,根据分块算法有可能 chunk 跨多个页
meta.boxlistchunk 的位置坐标
meta.page_numintchunk 内容所在页数

API 特性

异步处理流程

  1. 调用提交请求接口 → 获取 task_id
  2. 通过 task_id 调用获取结果接口轮询

轮询建议

  • 提交请求后 5~10 秒开始轮询
  • 轮询间隔:5 秒
  • 最大轮询时间:300 秒

QPS 限制

  • 提交请求接口:2 QPS
  • 获取结果接口:10 QPS

文件限制

限制项说明
文件大小(file_data)≤ 50MB,超过 50M 须使用 file_url
文件大小(file_url)PDF ≤ 300MB,非 PDF ≤ 50MB
URL 长度≤ 1024 字节
页数限制PDF ≤ 2000 页
优先级file_data > file_url(同时存在时 file_url 字段失效)

错误处理

常见错误码:

错误码说明解决方案
110/111access_token 无效或过期重新获取 access_token
216200文件或 URL 为空提供 file_data 或 file_url
216201文件格式错误检查文件格式是否支持
216202文件大小超限缩减文件大小
282000内部错误重试或联系技术支持
282003缺少必要参数检查必填参数
282007任务不存在检查 task_id 是否正确
282018服务繁忙降低请求频率

完整错误码参见 references/error_codes.md

在线调试

可在 示例代码中心 申请试该接口,可进行签名验证、查看在线调用的请求内容和返回结果、示例代码的自动生成。

脚本

  • scripts/baidu_doc_parser.py:文档解析主程序,支持命令行快速调用

参考文档

  • references/parameters.md:完整 API 参数与返回结构详解
  • references/error_codes.md:完整错误码参考
  • references/apikey-fetch.md:API Key 配置指南

相关链接