vaDeepresearch

Other

系统化深度研究技能。适用于需要联网研究、市场分析、竞品分析、行业研究、技术调研、论文/开源项目梳理、报告写作前置调研、PPT/文档/方案生成前的信息搜集与深度分析。当用户提出深度分析xxx、帮我分析xxx、快速分析xxx、深度研究xxx、详细分析xxx等话术时使用该 skills。Use when the user asks for deep research, comprehensive analysis, market/competitive/industry research, or content generation that requires current real-world evidence.

Install

openclaw skills install vadeepresearch

DeepResearch

1. 核心定位

本技能用于把“单次搜索式回答”升级为“多角度检索、多源交叉验证、结构化综合分析、可追溯报告输出”的深度研究流程。

核心原则:

  1. 先研究,后生成:凡是依赖现实世界信息、行业数据、论文、产品、政策、市场、新闻或近期事实的内容,必须先检索验证,再写结论。
  2. 多角度覆盖:不要只用一个关键词、一个来源或一个视角完成研究。
  3. 证据可追溯:关键结论必须能回到具体来源;数据、年份、主体、口径必须明确。
  4. 不虚构工具与来源:只使用当前运行环境真实可用的搜索、网页读取、文件读取、学术检索或连接器工具;不要硬编码不可用的示例 API。
  5. 冲突不掩盖:来源之间结论不一致时,必须标注冲突、分析口径差异,并给出可信度判断。

2. 触发条件

2.1 中文触发

当用户出现以下意图时启用:

  • “深度研究……”“深度分析……”“全面分析……”
  • “帮我研究一下……”“调研一下……”
  • “市场分析”“竞品分析”“行业研究”“研究报告”
  • “有哪些论文/开源项目/数据集/方案/案例”
  • “比较 A 和 B”“分析某技术路线/产品/公司/行业”
  • 在生成 PPT、报告、方案、文章、文档、前端页面、视频脚本前,需要真实资料支撑

2.2 English Triggers

Use this skill for:

  • “deep research on …”
  • “comprehensive analysis of …”
  • “market analysis / competitive analysis / industry research”
  • “research report about …”
  • “papers, open-source projects, datasets, cases about …”
  • content generation that requires current facts, examples, data, or citations

2.3 不必启用的情况

  • 用户只是要求改写、翻译、润色已给文本,且不需要外部事实。
  • 用户明确要求不要联网或不要检索。
  • 问题属于稳定常识,且用户不要求来源、最新信息或深度分析。

3. 输入理解与研究规划

开始研究前,先从用户需求中抽取:

字段说明
Topic / 主题研究对象是什么
Scope / 范围市场、技术、论文、竞品、政策、应用、风险等
Depth / 深度快速、标准、深度
Time Range / 时间范围最新、今年、近三年、历史演进等
Geography / 地域全球、中国、美国、欧洲、某行业/区域
Output / 输出简答、表格、研究报告、PPT素材、方案、Markdown文档等
Language / 语言默认跟随用户语言

若用户没有明确范围,不要停在追问;先按最合理的通用框架执行,并在输出中说明默认范围。


4. 研究深度分级

深度适用场景检索要求输出要求
快速研究用户要快速了解至少 3 个有效来源,2-3 个角度结论 + 证据摘要
标准研究普通调研/方案前置至少 5-8 个有效来源,3-5 个角度结构化分析 + 表格 + 来源
深度研究报告、决策、市场/竞品分析至少 10 个有效来源,5-10 个角度,覆盖官方/行业/新闻/学术/案例等完整报告 + 方法论 + 风险 + 建议

有效来源指:内容与主题直接相关、可追溯、时效合适、来源可信度可判断。


5. 辅助脚本工具链 Auxiliary Scripts

本技能在 scripts/ 目录下提供 6 个 Python 辅助脚本,覆盖研究全生命周期。在执行各阶段时,应优先调用对应脚本完成结构化任务,避免完全依赖手动推理。

脚本职责主要研究阶段CLI 用法
orchestrator.py任务编排:创建研究任务、管理子智能体、生成研究计划、汇总各角度发现Phase 1–2, Phase 6python orchestrator.py create <query> [lang]
research_engine.py研究引擎:执行网络搜索/学术搜索、生成查询词、提取发现、评估来源可信度Phase 1–3python research_engine.py research <topic> [lang]
progress_manager.py进度追踪:创建/更新/读取进度文件、生成可视化进度摘要、列出活跃任务全阶段python progress_manager.py show <task_dir> [lang]
analysis_engine.py分析引擎:加载研究数据、提取关键发现、识别模式/趋势/冲突、生成分析报告Phase 4–6python analysis_engine.py analyze <task_dir> [lang]
report_generator.py报告生成:加载任务元数据/研究发现/分析结果、生成 Markdown 研究报告Phase 6python report_generator.py generate <task_dir> [lang]
pdf_converter.pyPDF 转换:将 Markdown 报告转换为 PDF(依赖 md-to-pdf输出后处理python pdf_converter.py convert <md_file> [pdf_file]

使用原则:

  1. 每个研究任务启动时,优先使用 orchestrator.py 创建任务目录结构,确保后续各脚本有统一的数据落盘路径。
  2. 搜索阶段优先使用 research_engine.py 生成查询词并执行搜索,避免人工枚举查询词遗漏关键角度。
  3. 进度追踪贯穿全程,使用 progress_manager.py 更新各阶段状态,便于中断后恢复或多人协作。
  4. 分析阶段必须使用 analysis_engine.py 对原始发现进行结构化处理,不能直接将搜索摘要作为结论。
  5. 报告阶段使用 report_generator.py 统一生成 Markdown,再由 pdf_converter.py 按需转换 PDF。

6. 研究流程

Phase 1:广域探索 Broad Exploration

可用脚本: orchestrator.py(创建任务)、research_engine.py(生成查询词/执行搜索)、progress_manager.py(初始化进度)

目标:快速建立全局图谱。

执行动作:

  1. 用主题词进行 2-3 次宽泛搜索。
    • 可调用 python scripts/research_engine.py research <topic> 自动生成查询词并执行初步搜索。
  2. 识别主要子问题、利益相关方、技术路线、市场分层、争议点。
  3. 形成“研究角度清单”。
    • 调用 python scripts/orchestrator.py create <query> 创建任务目录,并在 plan.md 中记录研究角度。
    • 同步调用 python scripts/progress_manager.py 初始化进度文件。

常见研究角度:

类型推荐角度
技术调研技术原理、方法分类、关键论文、开源实现、评测指标、工程落地、瓶颈
市场分析市场规模、增长率、驱动因素、细分市场、区域格局、客户需求
竞品分析产品定位、核心功能、价格/商业模式、客户群、优势劣势、近期动作
行业研究产业链、政策环境、供需结构、关键玩家、投资并购、未来趋势
数据集/论文/开源项目任务定义、数据规模、标注类型、许可、下载方式、代码成熟度、适配成本
方案/报告生成背景、痛点、目标、路线、架构、指标、风险、里程碑、预算

Phase 2:定向深挖 Targeted Deep Dive

可用脚本: research_engine.py(多源搜索/按角度研究)、orchestrator.py(子智能体配置)

目标:对每个关键角度进行精准检索。

执行动作:

  1. 为每个角度生成至少 1-3 个查询。
    • 调用 python scripts/research_engine.pygenerate_search_queries() 生成查询词。
  2. 对高价值搜索结果读取全文或主要段落,不只依赖摘要。
  3. 对关键数据寻找原始来源或更高可信来源。
  4. 跟踪重要来源中的引用、报告、论文、项目页、官方公告。
    • 对每个角度调用 python scripts/research_engine.py research <topic> [lang] 执行 multi_source_search(),覆盖 web + academic 来源。
    • 调用 python scripts/orchestrator.pycreate_research_agent_config() 为每个角度创建子智能体配置,落盘到 <task_dir>/research/<angle>_config.json

查询模式:

{topic} market size {current_year}
{topic} industry report {current_year}
{topic} key players competitors
{topic} latest trends {current_year}
{topic} technical survey paper
{topic} benchmark dataset github
{topic} case study deployment
{topic} limitations challenges risks
{topic} policy regulation {region} {current_year}

中文查询示例:

{主题} 市场规模 {当前年份}
{主题} 行业分析 {当前年份}
{主题} 主要厂商 竞争格局
{主题} 技术路线 发展趋势
{主题} 论文 综述 评测
{主题} 开源项目 GitHub
{主题} 应用案例 落地
{主题} 挑战 风险 局限

Phase 3:多源验证 Diversity & Validation

可用脚本: research_engine.py(多源搜索/来源可信度评估)、progress_manager.py(更新进度)

目标:防止单一来源偏差。

执行动作:

  1. 使用 research_engine.pymulti_source_search() 同时搜索 web 和 academic 来源,确保覆盖至少 3 类来源类型。
  2. 利用 _assess_credibility() 自动评估每个来源的可信度(high/medium/low),优先保留 high 可信度来源。
  3. 调用 progress_manager.py 更新 verification 阶段状态,记录已验证的来源数量和类型。

至少覆盖以下来源类型中的 3 类;深度研究尽量覆盖 5 类以上。

来源类型价值可信度提示
官方来源公司公告、政府数据、标准、文档高,但可能有宣传倾向
学术来源论文、综述、会议、arXiv方法细节强,需注意是否已验证
行业报告Gartner、IDC、麦肯锡、咨询机构、证券研报等数据完整,但口径可能不同
权威新闻主流媒体、行业媒体时效好,需辨别二手转述
开源社区GitHub、文档、issue、release工程可行性强,需看维护状态
企业案例客户案例、白皮书、产品页有落地信息,但偏正面
社区讨论Reddit、论坛、博客可发现痛点,但不能单独作为强证据

Phase 4:证据抽取 Evidence Extraction

可用脚本: research_engine.py(extract_findings)、orchestrator.py(保存发现到任务目录)

目标:从原始搜索结果中提取结构化证据。

执行动作:

  1. 调用 python scripts/research_engine.pyextract_findings() 自动从搜索结果中提取关键发现,包括:content, url, title, credibility。
  2. 调用 python scripts/orchestrator.pysave_research_findings() 将每个角度的发现持久化到 <task_dir>/research/<angle_id>.json

对每个重要来源抽取以下字段:

字段要求
Source来源名称、链接或可引用标识
Date发布/更新日期,无法确认则标注“未明确”
Claim来源给出的关键结论
Data数值、指标、样本量、年份、统计口径
Context适用场景、地域、行业、技术条件
Confidence高/中/低
Notes局限、偏差、与其他来源冲突点

Phase 5:交叉验证与冲突处理

可用脚本: analysis_engine.py(识别矛盾/模式)、progress_manager.py(更新进度)

  1. 关键事实至少双源验证:市场规模、份额、价格、性能指标、政策条款、发布日期等,不要只信一个来源。
  2. 区分事实与判断:事实是“发生了什么/数值是多少”;判断是“意味着什么/未来会怎样”。
  3. 冲突来源并列展示:不同报告口径不同,不要强行合并成一个确定数字。
  4. 给出可信度理由:例如官方财报 > 权威报告 > 新闻转述 > 博客猜测。
  5. 时效优先但不盲从最新:最新消息若来源弱,不能压倒较旧但权威的官方/原始来源。

执行动作:

  • 调用 python scripts/analysis_engine.pyidentify_patterns() 自动识别高频主题、趋势和潜在矛盾点。
  • 对检测到的不一致数据,在分析报告中显式标注冲突并说明可信度差异。

Phase 6:综合分析与报告输出 Synthesis & Reporting

可用脚本: analysis_engine.py(生成洞察)、report_generator.py(生成 Markdown 报告)、pdf_converter.py(转 PDF)、progress_manager.py(完结进度)

目标:将证据组织为可交付的研究报告。

执行动作:

  1. 生成洞察:调用 python scripts/analysis_engine.py analyze <task_dir> [lang] 加载所有研究数据,生成 insights.jsonanalysis_report.md
  2. 生成报告:调用 python scripts/report_generator.py generate <task_dir> [lang] 整合元数据、研究发现和分析结果,输出完整的 Markdown 报告到 deepresearch/output/<task_id>/report.md
  3. PDF 转换(可选):若用户需要 PDF,调用 python scripts/pdf_converter.py convert <md_file> [pdf_file] 完成转换。
  4. 完结进度:调用 python scripts/progress_manager.pyreporting 阶段标记为 done,并检查所有阶段是否完成。

报告内容组织:

  1. 关键结论:最重要的 3-7 条发现。
  2. 证据链:每条结论对应来源、数据、逻辑。
  3. 结构化分析:按用户目标组织,而不是简单堆资料。
  4. 风险与不确定性:说明哪些结论稳定,哪些仍有争议。
  5. 行动建议:给出可执行建议、下一步验证方向或方案路径。

6. 时效性规则

研究时必须读取当前日期,并据此设计查询。

用户表达查询时间粒度示例
今天、今早、刚发布月 + 日 + 年AI news June 5 2026
本周周范围AI chip news week of June 1 2026
最近、最新月 + 年 / 近 30-90 天VLM small object detection June 2026
今年、趋势年份AI infrastructure trends 2026
历史演进多年份development history of ... 2020 2021 2022 2023 2024 2025 2026

禁止把“今天/刚发布”降级为年份级查询;这会漏掉当天信息。


7. 输出规范

7.0 默认输出格式与后续转换引导

默认输出格式:Markdown 文件,文件扩展名使用 .md

除非用户明确指定其他格式,否则研究结果、分析报告、证据表、参考来源和后续建议均应先以 Markdown 形式输出,便于阅读、审阅、版本管理和后续转换。

默认文件命名建议:

{topic_slug}_research_report.md

默认 Markdown 输出应包含:

  1. 标题、日期、版本与研究范围。
  2. 执行摘要。
  3. 分维度研究发现。
  4. 证据表、数据表、对比表。
  5. 风险、不确定性与限制。
  6. 结论与建议。
  7. 参考来源。

在完成 Markdown 输出之后,必须在结尾追加一个简短的“后续格式转换引导”,询问用户是否需要继续转换或二次加工。不要默认直接转换,除非用户已经明确要求。

推荐引导语:

---

## 后续可选处理

我已默认输出 Markdown(`.md`)版本。是否需要我继续转换为以下格式之一?

- Word(`.docx`):适合正式汇报、评审材料、可编辑文档
- PDF(`.pdf`):适合定稿分发、归档和打印
- PPT(`.pptx`):适合汇报展示,可进一步整理成页级结构
- HTML(`.html`):适合网页展示、交互报告或内部知识库
- Excel(`.xlsx`):适合将证据表、竞品表、数据表单独结构化

也可以继续让我提取:摘要版、领导汇报版、PPT大纲、图表清单、参考文献表。

如果用户要求“生成文件”,优先生成 .md 文件并提供下载链接;若用户随后选择 Word/PDF/PPT/HTML/Excel,再调用对应文件生成流程完成转换。

7.1 快速研究输出

# {主题} 快速研究结论

## 结论摘要
1. ...
2. ...
3. ...

## 关键证据
| 结论 | 证据 | 来源 | 可信度 |
|---|---|---|---|
| ... | ... | ... | 高/中/低 |

## 风险与不确定性
- ...

## 建议
- ...

7.2 标准研究输出

# {主题} 研究分析

## 1. 执行摘要
- 核心结论 1
- 核心结论 2
- 核心结论 3

## 2. 研究范围与方法
- 研究范围:...
- 时间范围:...
- 来源类型:...

## 3. 分维度发现
### 3.1 {角度一}
### 3.2 {角度二}
### 3.3 {角度三}

## 4. 对比表 / 数据表
| 维度 | A | B | C | 备注 |
|---|---|---|---|---|

## 5. 深度分析
- 驱动因素
- 约束因素
- 机会窗口
- 风险点

## 6. 结论与建议

## 7. 来源与证据表
| 来源 | 日期 | 关键内容 | 可信度 |
|---|---|---|---|

7.3 深度报告输出

---
title: "{研究主题}深度研究报告"
date: "{当前日期}"
version: "1.0"
---

# 执行摘要

# 1. 研究背景与问题定义

# 2. 研究方法与数据来源

# 3. 关键发现

# 4. 分维度深度分析

# 5. 数据、案例与证据矩阵

# 6. 竞争格局 / 技术路线 / 产业链 / 市场结构

# 7. 风险、限制与不确定性

# 8. 趋势判断与情景推演

# 9. 结论与建议

# 10. 参考来源

8. 质量检查清单

输出前必须检查:

  • 是否至少覆盖 3 个以上研究角度?
  • 是否读取了重要来源的正文或关键段落,而不是只看搜索摘要?
  • 是否有事实、数据、案例、观点、风险的平衡覆盖?
  • 是否标注关键数据的年份、口径、地域和来源?
  • 是否处理了互相冲突的来源?
  • 是否区分“已证实事实”和“分析推断”?
  • 是否避免了过期信息?
  • 是否避免了没有来源支撑的绝对化结论?
  • 是否根据用户目标输出,而不是把资料简单罗列?
  • 是否正确调用了对应阶段的辅助脚本(orchestrator/research_engine/analysis_engine/report_generator)?
  • 是否在任务结束后更新了 progress_manager 的完结状态?

未满足检查项时,继续补充检索或在输出中明确说明限制。


9. 常见错误与修正

错误问题修正
只搜 1 次就回答覆盖不足至少多角度、多关键词检索
只看搜索摘要容易误读打开并阅读高价值来源正文
只找正面材料结论偏乐观同时检索 challenges / limitations / criticism
不写时间口径数据不可比标注年份、地域、样本、统计范围
把预测当事实误导决策明确 forecast / estimate / reported / confirmed
使用不可用 API 示例技能不可执行使用宿主环境真实工具;无工具时说明限制
堆砌来源没有分析价值用证据支撑结论,形成判断

10. 工具与脚本使用约束

10.1 外部工具约束

  1. 优先使用当前环境真实提供的搜索、网页读取、文件读取、学术检索、代码仓库检索、连接器工具。
  2. 不要假设存在 searxng.example.comsearch.example.com、NewsAPI key 或其他未配置服务。
  3. 如果环境提供搜索 API,可使用该 API;如果只提供浏览器搜索工具,则使用浏览器搜索工具。
  4. 如果无法联网或无法访问某来源,必须说明限制,并基于已可用资料给出保守结论。
  5. 对 PDF、图表、表格、图片型资料,优先使用能读取视觉内容的方式;不要只依赖 OCR 或文件名。

10.2 本地脚本约束

  1. 优先调用脚本:每个研究阶段应优先调用 scripts/ 目录下的对应脚本完成结构化任务,避免完全依赖手动推理。例如:
    • 搜索阶段 → research_engine.py
    • 分析阶段 → analysis_engine.py
    • 报告阶段 → report_generator.py
  2. 脚本依赖pdf_converter.py 依赖 Node.js 工具 md-to-pdf,转换前需检查 npx md-to-pdf --version 是否可用;不可用时应提示用户安装。
  3. 数据一致性:各脚本通过 <task_dir> 目录共享数据(JSON 文件),确保 orchestrator.py 创建的任务目录结构被后续脚本正确读取。
  4. 进度同步:每完成一个阶段,必须调用 progress_manager.py 更新对应阶段状态,便于中断后恢复。
  5. 错误处理:脚本调用失败时,不应静默忽略;应捕获错误并回退到手动推理,同时在输出中标注“脚本调用失败,以下为手动分析结果”。

11. 研究任务模板

11.1 市场分析模板

研究角度:
1. 市场定义与边界
2. 市场规模、增长率与预测口径
3. 需求驱动因素
4. 主要玩家与份额
5. 商业模式与价格体系
6. 区域/行业细分
7. 风险、政策、供应链约束
8. 未来 1-3 年趋势与建议

11.2 竞品分析模板

研究角度:
1. 竞品清单与定位
2. 核心功能与技术路线
3. 客户群与使用场景
4. 定价与商业模式
5. 优势、短板、护城河
6. 近期发布、融资、合作、并购
7. 可借鉴点与差异化机会

11.3 技术/论文/开源调研模板

研究角度:
1. 问题定义与任务边界
2. 主流方法分类
3. 代表论文与核心贡献
4. 数据集、指标与评测结果
5. 开源代码、许可证、维护状态
6. 工程落地难点
7. 适合用户场景的路线建议

11.4 方案/PPT/报告前置研究模板

研究角度:
1. 项目背景与行业痛点
2. 用户现状与短板
3. 技术路线与可行性
4. 竞品或替代方案对比
5. 关键指标与验收标准
6. 风险与应对措施
7. 预算、里程碑与交付物建议

12. 最终输出要求

无论输出长短,都应满足:

  1. 结论先行,不让用户在资料堆里找答案。
  2. 表格用于承载对比、证据、数据和来源。
  3. 对重要结论给出来源依据。
  4. 对不确定内容明确标注“不确定/来源不足/口径不一致”。
  5. 语言跟随用户;中文用户默认中文,英文用户默认英文。
  6. 研究报告默认输出为 Markdown,文件扩展名使用 .md,便于审阅、版本管理和后续转换。
  7. Markdown 输出完成后,必须引导用户选择是否继续转换为 Word、PDF、PPT、HTML、Excel,或进一步提取摘要版、汇报版、图表清单等二次交付物。