Install
openclaw skills install va-docparseTrigger when user mentions OCR/文档解析/阅读/识别/读取 or asks to extract text from documents. Parses PDF/images via remote document parsing service. NOT for audio/video/photos/source code.
openclaw skills install va-docparse通过 MCP Server 调用远程文档解析服务,提取 PDF/图片中的文字、表格和公式。
用户提到 OCR、文档解析、阅读、识别、读取,或要求从文档中提取文字时触发。
Python 版本:Python 3.10 或更高版本
依赖安装:
pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple
或手动安装:
pip install fastmcp>=3.0.0 mcp>=1.0.0 -i https://pypi.tuna.tsinghua.edu.cn/simple
在 OpenClaw Gateway 寻找 docparse服务,类似配置如下:
{
mcpServers: {
docparse: {
command: "python",
args: ["/path/to/.openclaw/workspace/skills/docparse/mcp/docparse.py"],
env: {
DOCPARSE_MCP_URL: "http://<host>:<port>/mcp",
DOCPARSE_API_KEY: "your-api-key",
DOCPARSE_TIMEOUT: "7200",
},
},
},
}
或使用 openclaw mcp set 命令配置:
openclaw mcp set docparse '{
"command": "python",
"args": ["/path/to/.openclaw/workspace/skills/docparse/mcp/docparse.py"],
"env": {
"DOCPARSE_MCP_URL": "http://<host>:<port>/mcp",
"DOCPARSE_API_KEY": "your-api-key",
"DOCPARSE_TIMEOUT": "7200"
}
}'
环境变量说明:
DOCPARSE_MCP_URL:远程文档解析 MCP 服务地址(必需)DOCPARSE_API_KEY:API 密钥(可选)DOCPARSE_TIMEOUT:超时时间,单位秒(可选,默认 7200)配置优先级(从高到低):
os.environ) — 最高优先级openclaw.json 的 mcp.servers.docparse.env.env 文件(skill 目录下)— 最低优先级高层级配置自动覆盖低层级,无需手动同步。
也可以直接运行 MCP Server(需使用 venv 中的 Python):
export DOCPARSE_MCP_URL="http://<host>:<port>/mcp"
export DOCPARSE_API_KEY="your-api-key"
python /path/to/.openclaw/workspace/skills/docparse/mcp/docparse.py
Server 通过 stdio 与 MCP 客户端通信。
parse_document解析指定路径的文档,返回提取的文本内容。
参数:
| 参数 | 类型 | 必填 | 说明 |
|---|---|---|---|
file_path | string | 是 | 待解析文件的绝对路径 |
output_format | string | 否 | 输出格式:markdown(默认)、json、both |
返回:
如需在 Python 代码中直接调用(兼容旧版 mcp/docparse.py 的用法):
import sys
sys.path.insert(0, "/path/to/.openclaw/workspace/skills/docparse")
from mcp.docparse import parse_document_return
| 代号 | 场景 | 用户提示 |
|---|---|---|
[F001] | 文件不存在 | 解析失败:未找到待解析文件。建议:请确认文件是否已上传,或检查文件路径是否正确。 |
[F002] | 文件不可读 | 解析失败:当前文件无法读取。建议:请检查文件权限后重试。 |
[F003] | 格式不支持 | 解析失败:当前文件格式不支持文档解析。支持格式:PDF、PNG、JPG、JPEG、BMP、WEBP、TIFF。建议:请先将文件转换为 PDF 后重试。 |
[C001] | 配置缺失 | 解析失败:文档解析服务当前不可用。建议:请联系管理员检查解析服务配置后重试。 |
[A001] | MCP 认证/连接异常 | 解析失败:文档解析服务当前不可用。建议:请联系管理员检查解析服务配置后重试。 |
[N001] | 网络连接失败 | 解析失败:文档解析服务当前不可用。建议:请稍后重试,或联系管理员检查服务状态。 |
[S001] | 服务返回空 | 解析失败:文档解析服务未返回有效内容。建议:请确认文件内容清晰后重试。 |
[S002] | 响应解析失败 | 解析失败:文档结果解析异常。建议:请稍后重试,或联系管理员检查解析服务。 |
[S003] | 服务返回错误 | 解析失败:文档解析服务返回异常。建议:请稍后重试,或联系管理员检查解析服务。 |
[O001] | 输出目录不可写 | 解析失败:无法写入输出目录。建议:请更换输出路径或检查目录权限。 |
[O002] | 输出文件写入失败 | 解析失败:无法写入输出文件。建议:请更换输出路径或检查目录权限。 |
✅ 解析完成!
输出文件:report.md
文件大小:12.3 KB
内容摘要:本文档包含项目需求分析、技术架构设计、接口定义及测试计划...
[C001] 解析失败:文档解析服务当前不可用。
建议:请联系管理员检查解析服务配置后重试。
parse_document[F001,S001]