Install
openclaw skills install brightdata-researchUse when the user asks to batch-search candidates, verify public web evidence, dedupe results, and organize them into Feishu/Lark docs. Use especially for requests like "继续搜更多并追加到飞书", "帮我批量找一批候选并整理到飞书", "搜索+抓取+汇总+落文档/落表", "帮我调研一批XX平台", "扩展候选池", even if the user does not explicitly name this skill. Also use when the user says "检查飞书文档里有没有重复" or "去重" in the context of a research document — this skill covers dedup-and-cleanup as a sub-workflow. Do NOT use for: single-page summaries, one-off Q&A, pure code tasks, or tasks that don't involve batch research + structured output.
openclaw skills install brightdata-researchGitHub: https://github.com/16Miku/brightdata-research-skill ClawHub: https://clawhub.ai/16miku/brightdata-research
把"批量搜索 + 网页抓取 + 候选验证 + 结构化整理 + 飞书追加写入"做成一个稳定、可复用的研究流水线。
本 skill 有两种执行模式。根据环境状态自动选择。
前提:搜索、抓取、飞书写入能力均已就绪。 行为:跳过环境准备,直接进入 Step 0 开始研究流程。
前提:首次使用,或 preflight 发现缺少关键能力。
行为:先按 references/environment-checklist.md 逐项检查并修复,然后进入 Mode A。
环境准备的自动修复顺序见 references/lark-cli-install-and-auth.md 和 references/brightdata-mcp-setup.md。
从用户请求或历史上下文提取:
上下文复用规则: 如果当前对话里已经出现过目标文档 URL/ID、历史候选列表、或研究主题,直接复用这些信息,不要再问用户"请提供文档 ID"。
按 references/environment-checklist.md 检查:
| 能力 | 检查方式 | 缺失时行为 |
|---|---|---|
| 搜索 | 检查 BrightData MCP 工具或 CLI 是否可用 | 不能扩充候选池,只能验证用户给定名单 |
| 抓取 | 检查 BrightData scrape 工具或 CLI 是否可用 | 只输出低置信度线索 |
| 飞书写入 | 检查 lark-cli / lark-doc skill 是否可用 | 先输出 Markdown,告知用户未写入飞书 |
| 目标文档 | 检查上下文是否有 doc_id / URL | 询问用户:新建还是追加 |
| 历史去重 | 尝试读取已有文档内容 | 只做本轮内部去重,声明无法保证历史去重 |
| subagent | 检查 git 仓库和 HEAD 是否可解析 | 改为主代理串行执行 |
如果缺失项可自动修复(如 lark-cli 未安装),按 Mode B 修复后继续。 如果缺失项无法自动修复(如用户未提供 API token),明确告知用户并降级。
把任务拆成多个独立批次:
优先使用 BrightData 搜索和抓取工具:
初筛时保留高相关候选,剔除明显无关页、镜像页、纯广告页。
去重分两阶段:
阶段 A — 本轮内部去重:
阶段 B — 历史去重(如果能读取历史文档):
如果无法读取历史文档,只做阶段 A,并明确声明。
默认推荐字段:
如果用户有自定义字段,优先满足用户字段 schema。
使用 checklist 式评分:
| 维度 | 有=1分 | 无=0分 |
|---|---|---|
| 可访问的官网 | 1 | 0 |
| 公开 API 文档 | 1 | 0 |
| 定价页或明确价格信息 | 1 | 0 |
| Terms of Service / Privacy Policy | 1 | 0 |
| 可查证的公司/团队主体 | 1 | 0 |
| OpenAI-compatible 或统一 API 兼容证据 | 1 | 0 |
分层规则:
每条候选附一句风险原因。
主代理负责:
如果用户要求写入飞书文档:
lark-shared 与 lark-doc 的认证和安全规则--as user 访问用户自己的文档不要让 subagent 直接写同一个飞书文档。
默认按下面结构向用户汇报,并尽量按同结构写入飞书文档:
## 第X轮新增候选(来源说明)
### 1. 平台名称
- 官网:
- 文档:
- 定价:
- 支持模型证据:
- OpenAI 兼容证据:
- 初步风险:A/B/C(得分 X/6,原因:...)
- 备注:
## 本轮待进一步验证候选
...
## 本轮去重说明
- 本轮内部去重:哪些被合并
- 历史去重:哪些平台已在历史轮次出现,因此不重复写入
## 本轮阶段性结论
- 本轮新增较高可信候选:
- 本轮新增待验证候选:
- 下一步建议:
如果用户没有要求写飞书,也建议先按这个模板输出到对话中。
适合调用 subagent 的场景:
如果环境不满足 subagent/worktree 前置条件,改为主代理串行执行。详见 references/subagent-git-prerequisites.md。
当用户要求"检查飞书文档有没有重复"或"去重"时,执行以下子流程:
以下条件大致满足时,可认为本轮执行成功:
| 文档 | 用途 |
|---|---|
references/environment-checklist.md | Preflight 检查清单,区分可自动修复和需用户介入的项 |
references/brightdata-mcp-setup.md | BrightData MCP 和 CLI 的安装、认证与验证 |
references/lark-cli-install-and-auth.md | lark-cli 安装、配置、认证的完整步骤 |
references/feishu-setup.md | 飞书文档写入规则和身份选择 |
references/known-failures-and-fallbacks.md | 常见失败场景和降级策略 |
references/subagent-git-prerequisites.md | subagent/worktree 的前置条件和降级规则 |
references/smoke-tests.md | 每项能力的最小验证命令 |