ResearchMate

v2.1.0

深度写作素材采集 Skill。当用户需要为文章、报告、视频脚本采集素材,或说"帮我找XX相关资料"、"我要写一篇关于XX的文章"、"帮我做选题调研"、"给我采集XX素材"时触发。通过三步交互问询(选题→关键实体→目标字数)+ 多源自动采集 + 四重反幻觉验证(数值/主体/时间/来源)+ 结构化输出,为深度写作提供...

0· 70· 1 versions· 0 current· 0 all-time· Updated 1w ago· MIT-0

ResearchMate — 深度写作素材采集 Skill

让 AI 像专业研究员一样「系统采集 + 严格验证」,为你的深度写作提供可信赖的素材库。


触发条件

满足以下任意一项时触发本 Skill:

  • 用户说"帮我采集素材"、"帮我找XX相关资料"、"我要写一篇关于XX的文章"
  • 用户说"帮我做选题调研"、"给我找XX案例/数据/观点"
  • 用户需要为公众号文章、视频脚本、研究报告、商业分析收集内容基础
  • 用户提到"素材不够"、"文章缺乏数据支撑"、"找不到好案例"

不触发场景: 纯问答、日常闲聊、代码调试、不需要素材支撑的简短写作(如写一封邮件、生成一段广告语)


核心能力

能力说明实现方式
🗣️ 交互式问询三步确认真实需求,避免方向跑偏结构化对话
🔍 多源自动采集按选题类型路由到最优来源组合web_search + read_url
🛡️ 四重反幻觉验证数值/主体/时间/来源缺一不可结构化验证规则
📊 质量评分每条素材四维度评分(0-1)+ 综合评分(0-100)加权算法
📦 结构化输出Markdown 素材库 + CSV 评估表create_file

执行流程

Step 1:三步交互问询(必须完整执行,不可跳过)

在采集任何内容之前,依次询问以下三个问题:

❓ 请描述您的选题(想写什么主题的文章):
🔑 关键词(产品名称、企业名称、人物姓名或事件名称,多个用逗号分隔):
📝 您计划写多少字的内容?(例如:3000):

收到回答后,输出确认摘要:

✅ 已确认采集需求:
📌 选题:[用户填写]
🔑 关键词:[用户填写]
📊 目标字数:[用户填写] 字
📚 预计采集素材:[目标字数×8~10倍] 字(按 8-10 倍原则)

为什么必须问这三个问题:

  • 选题描述 → 只有了解写作角度,才能精准匹配素材类型
  • 关键实体 → 锁定具体公司/产品/人物,避免泛泛而谈
  • 目标字数 → 智能计算采集量(8-10 倍原则),避免素材不足或过剩

Step 2:按选题类型路由采集源

根据选题描述,自动判断需求类型并激活对应采集源组合:

需求类型激活来源
科技/产品科技媒体(36氪、虎嗅、极客公园)、官方博客、GitHub
财经/商业财报、券商研报、财经媒体(界面新闻、雪球、Wind资讯)
政策/监管政府官网、新华社、人民日报、行业协会公告
学术/研究学术媒体报道、行业白皮书、研究机构报告
人物/事件新闻媒体、采访报道、官方声明
国际动态英文媒体(Reuters、Bloomberg报道摘要)

每个来源使用 web_search 搜索,再用 read_url 提取正文内容。

采集量目标: 目标字数 × 810 倍(例如写 5000 字 → 采集 4000050000 字素材)


Step 3:四重反幻觉验证(每条素材必须通过)

对每一条采集到的数据/观点/案例,执行以下四项检查:

验证维度检查内容失败处理
✅ 数值检查必须有具体数字(增长率、金额、占比等)标记为"低可信度"
✅ 主体检查必须明确公司/产品/机构名称要求补充来源
✅ 时间检查必须有清晰的时间点或时间段标注时效性风险
✅ 来源检查必须标注数据来源(财报/研报/媒体报道)降权或剔除

通过全部四项 → 标记 ✅ 反幻觉检查通过 任意一项失败 → 标记对应风险,不得在输出中作为可信事实引用


Step 4:质量评分

对每条通过验证的素材进行四维度评分:

维度权重说明
可信度30%来源权威性、数据可核实程度
时效性25%发布时间距今的距离
完整性25%信息是否完整、上下文是否充分
交叉验证20%是否有多个来源相互印证

综合评分 = 四维度加权求和 × 100,评级标准:

  • S 级(≥90):直接引用,高优先级
  • A 级(80-89):可用,建议补充交叉验证
  • B 级(70-79):谨慎使用,需补充说明
  • C 级(<70):不建议引用,仅供参考

Step 5:结构化输出

输出两份文件:

① Markdown 素材库(主交付物)

每条素材按以下结构呈现:

## 素材 #001 — [类型] [主题]

### 📝 核心内容摘要
[2-3句话概括核心信息]

### ✅ 验证信息
- **数据来源:** [具体来源名称]
- **发布时间:** [具体日期]
- **反幻觉检查:** ✅/⚠️(数值✓/✗ 主体✓/✗ 时间✓/✗ 来源✓/✗)

### 🔗 引用建议
> [可直接用于文章的引用格式,含来源标注]

### 📎 关联素材
- [与其他素材的关联提示]

② CSV 评估表(辅助交付物)

ID,类型,主题,来源URL,采集时间,可信度,时效性,完整性,交叉验证,综合评分,等级,是否采用,补充建议
001,财务数据,XX公司Q4财报,https://...,2026-04-17,0.92,0.95,0.88,0.85,90,S,☐,

防幻觉铁律(不可违反)

  1. 禁止无来源数据:所有数字、结论、案例必须附带可追溯的原始 URL 和发布时间
  2. 禁止模糊时间:不得写"近年来"、"最近",必须写具体年月
  3. 禁止主体缺失:不得写"某企业"、"有公司",必须写具体名称
  4. 禁止推断性数据:采集的是已发布的事实,不是 AI 推断的结论
  5. 低可信素材必须标注:不得将 C 级素材混入主素材库而不加警示

输出示例

用户输入:帮我采集比亚迪2025年财务表现的素材,准备写5000字分析文章

问询确认后,输出结构:

✅ 已确认采集需求:
📌 选题:比亚迪2025年财务表现分析
🔑 关键词:比亚迪、2025年财报、营收、净利润、毛利率
📊 目标字数:5000 字
📚 预计采集素材:40000-50000 字

正在采集中...
[采集来源1] 比亚迪官方财报披露 → 提取关键数据
[采集来源2] 券商研报摘要 → 提取分析观点
[采集来源3] 财经媒体报道 → 提取市场反应
...

共采集 [N] 条素材,通过四重验证 [M] 条
S级:[x]条 | A级:[y]条 | B级:[z]条 | C级(已剔除):[w]条

能力边界声明

ResearchMate 能做:

  • 系统化采集公开发布的新闻、财报、研报、官方公告等内容
  • 对采集内容进行四重验证和质量评分
  • 生成结构化素材库,方便写作时快速调用

ResearchMate 不能做:

  • 访问付费数据库(Wind、Bloomberg 终端等需订阅的内容)
  • 采集需要登录的内部资料
  • 生成或推断未公开发布的数据(这是幻觉,不是素材)
  • 替代人工判断——最终引用决策由作者负责

Version tags

latestvk97ds61axfhar16t4mh8syde2h8502yj