智能文档助手

v2.0.4

智能文档处理专家，支持文档解析、信息抽取、文档分类

⭐ 0· 69·0 current·0 all-time

bydocpilot@ankylala·duplicate of @ankylala/docpilot (2.0.4)·canonical: @ankylala/tokenai-docpilot

OpenClaw Prompt Flow

Install with OpenClaw

Best for remote or guided setup. Copy the exact prompt, then paste it into OpenClaw for ankylala/docpilot.

Previewing Install & Setup.

Prompt PreviewInstall & Setup

Install the skill "智能文档助手" (ankylala/docpilot) from ClawHub.
Skill page: https://clawhub.ai/ankylala/docpilot
Keep the work scoped to this skill only.
After install, inspect the skill metadata and help me finish setup.
Use only the metadata you can verify from ClawHub; do not invent missing requirements.
Ask before making any broader environment changes.

Command Line

CLI Commands

Use the direct CLI path if you want to install manually and keep every step visible.

OpenClaw CLI

Bare skill slug

openclaw skills install docpilot

ClawHub CLI

Package manager switcher

npx clawhub@latest install docpilot

Security Scan

Capability signals

Requires OAuth tokenRequires sensitive credentials

These labels describe what authority the skill may exercise. They are separate from suspicious or malicious moderation verdicts.

VirusTotal

Benign

View report →

OpenClaw

Suspicious

medium confidence

Purpose & Capability

技能声明为文档解析/抽取/分类，代码（index.py）确实将用户提供的文件通过 HTTP POST 上传到远端 API 并返回解析结果，这与目的相符。但 registry 元数据显示“Required env vars: none / Primary credential: none”，而包内的 clawhub.yaml 和 SKILL.md 都明确要求 DOCPilot_API_KEY，且包中还包含 config.json（含 api_key 值 '123456'）。元数据与实际依赖不一致，说明发布时有信息遗漏或刻意隐藏凭据需求。

ℹ

Instruction Scope

SKILL.md 和 README 中的运行说明只描述了对本地文件的解析/抽取/分类调用，代码仅按说明将文件与参数上传至 API 并返回结果，未见额外读取本机用户数据的指令。但行为包含把整个文件（可能含敏感信息）上传到第三方服务——这是功能所需但具有隐私风险，应在信任服务与审计后使用。

✓

Install Mechanism

没有安装脚本或远程下载；依赖仅为 requests（requirements.txt）。作为纯 Python 脚本分发风险较低（没有自动拉取/执行不明二进制），但包内自带配置文件会在运行时被读取，这需要注意。

Credentials

技能合理地需要一个 API key（DOCPilot_API_KEY）来调用远端服务，但 registry 元数据没有列出它且“Required env vars: none”。此外，包内包含 config.json（base_url + api_key: '123456'），这会导致在未配置用户凭据时仍可能使用打包的/默认的 key 或泄露打包方的凭据。要求的凭据本身与功能相关，但凭据处理（打包的 config.json）不当，增加了凭据泄露或误用风险。

✓

Persistence & Privilege

技能未请求 always:true，默认配置允许被用户调用并由模型在允许情况下自主调用（平台默认）。技能不会修改其它技能或系统范围配置，仅在自身目录读取 config.json。无不当特权请求。

What to consider before installing

简明建议： - 功能与代码一致：该技能会把你指定的本地文档上传到一个远端服务（默认 https://docpilot.token-ai.com.cn）以执行解析/抽取/分类；这是其宣称的核心功能。上传文档可能包含敏感数据（合同、发票、手写签名等），使用前请确认你信任目标服务与其隐私/保留策略。 - 注意元数据不一致：包的注册信息显示“无需环境变量/凭据”，但实际上 code 和 clawhub.yaml 都需要 DOCPilot_API_KEY。不要仅凭注册元数据判断权限需求。 - 包内有 config.json（含 api_key='123456'）：这很可疑。它可能是占位符，也可能是打包时误包含的真实密钥。安装或运行前： - 打开并审查 config.json，删除或替换其中的 api_key 为你自己的凭据，或将其移除以强制使用环境变量。 - 如果该 key 看起来真实，不要依赖或泄露该 key；向发布方确认其用途和有效性。 - 隐私防护建议：在信任服务之前，用非敏感、合成或公开的测试文档进行试验；不要上传包含个人身份信息、财务数据或机密合同的真实文件。 - 额外验证：如果你需要长期使用该技能，尝试联系或验证发布者（Owner ID 没有公开主页），并确认服务的隐私/数据保留/删除策略；检查网络流量（例如在受控网络内抓包）确认上行目标与 SKILL.md 中声明的 base_url 一致。 - 如果你不信任远端服务或没有独立 API Key，考虑使用本地-only 文档解析工具或替代方案，避免把敏感文件交给不明服务。

Like a lobster shell, security has layers — review code before you run it.

latestvk976ve4nyy6vgpyw9gbmw6h7dx85e7ag

69downloads

0stars

2versions

Updated 4d ago

v2.0.4

MIT-0

DocPilot — 智能文档处理专家

高精度文档处理技能，支持文档解析、信息抽取、文档分类。

为什么选择 DocPilot？

三层能力 + 六大核心优势

三层能力

解析 — 高精度识别文档内容，保留版面结构
抽取 — 按需求提取关键字段，每条结果都能溯源到原文位置
分类 — 自动识别文档类型，混合文档也能自动切分

六大核心优势

1. 证据溯源 — 每个字段都有"身份证" ⭐ 独家

{
  "key": "合同金额",
  "value": "¥1,200,000",
  "confidence": "high",
  "evidence": [{
    "text": "合同总金额：¥1,200,000",
    "page": 2,
    "quad": [[120, 350], [480, 350], [480, 380], [120, 380]]
  }]
}

审计、法务、财务场景必备 — 知道数据从哪来，才能相信数据是对的。

2. 混合文档切分 — 一份文件，多种类型 ⭐ 独家

上传一份包含"合同+发票+报价单"的混合文件，自动识别边界并逐段分类。

3. 印章检测 — 公章/签名章/骑缝章自动识别 ⭐ 独家

自动检测文档中的印章和签章，返回位置和类型信息，适用于合同审查、资质验证。

4. 跨页表格合并 — 断裂表格智能还原 ⭐ 独家

自动识别跨页断裂的表格，智能合并表头和表体，输出完整结构。

5. 手写字体识别 — 印刷+手写混合识别 ⭐ 独家

支持印刷体和手写体混合识别，覆盖表单填写、手写批注、签字确认等场景。

6. 全格式支持 — 一个技能全部搞定

PDF · 图片 · Word · Excel · CSV — 无需组合多个工具。

命令

解析文档

DocPilot parse <文件路径> [选项]

示例：

DocPilot parse C:\docs\report.pdf
DocPilot parse C:\docs\scan.jpg --output markdown
DocPilot parse C:\docs\data.xlsx
DocPilot parse C:\docs\contract.pdf --seal --bbox

信息抽取

DocPilot extract <文件路径> --schema <JSON>

示例：

DocPilot extract C:\docs\contract.pdf --schema "{\"fields\":[{\"key\":\"甲方\",\"type\":\"string\"},{\"key\":\"乙方\",\"type\":\"string\"}]}"
DocPilot extract C:\docs\invoice.pdf --schema schema.json

文档分类

DocPilot classify <文件路径> [选项]

示例：

DocPilot classify C:\docs\mixed.pdf
DocPilot classify C:\docs\docs.pdf --mode classify_and_split --categories "[{\"name\":\"合同\",\"description\":\"合同协议\"},{\"name\":\"发票\",\"description\":\"发票单据\"}]"

参数说明

parse 命令

参数	说明	示例
文件路径	PDF/图片/Word/Excel 文件路径	`C:\docs\report.pdf`
--output	输出格式 (structured/markdown/text)	`--output markdown`
--layout	启用版面分析	`--layout`
--table	启用表格识别（含跨页合并）	`--table`
--seal	启用印章识别	`--seal`
--dpi	DPI (72/144/200/216)	`--dpi 200`
--pages	页码范围	`--pages 1-5,8,10-12`
--bbox	包含边界框坐标	`--bbox`
--normalize	返回格式化解析数据 (默认开启)	`--normalize`
--raw	返回原始解析格式	`--raw`
--include-image	markdown 中包含图片	`--include-image`
--image-format	图片格式 (url/base64)	`--image-format url`

extract 命令

参数	说明	示例
文件路径	文档文件路径	`C:\docs\contract.pdf`
--schema	字段 schema（必填）	`--schema '{"fields":[...]}'`
--prompt	提示词模式 schema	`--prompt '{"fields":[...]}'`
--schema-ref	模板引用	`--schema-ref DocPilot/contract/v1`
--options	扩展配置	`--options '{"mode":"fast"}'`

classify 命令

参数	说明	示例
文件路径	文档文件路径	`C:\docs\mixed.pdf`
--mode	分类模式	`--mode classify_and_split`
--categories	分类 schema	`--categories '[{"name":"合同","description":"..."}]'`

配置

方式一：环境变量

DOCPilot_BASE_URL=https://docpilot.token-ai.com.cn
DOCPilot_API_KEY=your_api_key

方式二：配置文件

在技能目录创建 config.json：

{
  "base_url": "https://docpilot.token-ai.com.cn",
  "api_key": "your_api_key"
}

输出格式

parse 输出

document_id: 文档唯一标识
page_count: 页数
file_type: 文件类型
pages: 页面数组（含 elements）
sheets: 工作表数组（Excel/CSV）
markdown: Markdown 格式文本

extract 输出

extraction_id: 抽取任务 ID
fields: 提取的字段列表（含 evidence 溯源）
unfound_fields: 未找到的字段
metadata: 元数据（耗时、token 数等）

classify 输出

mode: 分类模式
classification: 分类结果（classify_only 模式）
segments: 文档片段列表（classify_and_split 模式）
metadata: 元数据

典型应用场景

场景	使用方式	核心能力
合同审查	抽取关键字段 + 印章检测	证据溯源 + 印章识别
财务审计	跨页表格合并 + 字段抽取	跨页合并 + 溯源
档案整理	混合文档自动分类切分	文档分类
招投标文件	识别报价单/资质/方案并分别处理	文档分类 + 解析
表单处理	手写内容识别 + 结构化抽取	手写识别 + 信息抽取
合规检查	检测印章、签章，验证文档完整性	印章检测

依赖

requests

错误码

错误码	消息	说明
10000	Success	成功
10001	Missing parameter	参数缺失
10002	Invalid parameter	非法参数
10003	Invalid file	文件格式非法
10004	Failed to recognize	识别失败
10005	Internal error	内部错误

Comments

Loading comments...