ResearchMate — 深度写作素材采集 Skill
让 AI 像专业研究员一样「系统采集 + 严格验证」,为你的深度写作提供可信赖的素材库。
触发条件
满足以下任意一项时触发本 Skill:
- 用户说"帮我采集素材"、"帮我找XX相关资料"、"我要写一篇关于XX的文章"
- 用户说"帮我做选题调研"、"给我找XX案例/数据/观点"
- 用户需要为公众号文章、视频脚本、研究报告、商业分析收集内容基础
- 用户提到"素材不够"、"文章缺乏数据支撑"、"找不到好案例"
不触发场景:
纯问答、日常闲聊、代码调试、不需要素材支撑的简短写作(如写一封邮件、生成一段广告语)
核心能力
| 能力 | 说明 | 实现方式 |
|---|
| 🗣️ 交互式问询 | 三步确认真实需求,避免方向跑偏 | 结构化对话 |
| 🔍 多源自动采集 | 按选题类型路由到最优来源组合 | web_search + read_url |
| 🛡️ 四重反幻觉验证 | 数值/主体/时间/来源缺一不可 | 结构化验证规则 |
| 📊 质量评分 | 每条素材四维度评分(0-1)+ 综合评分(0-100) | 加权算法 |
| 📦 结构化输出 | Markdown 素材库 + CSV 评估表 | create_file |
执行流程
Step 1:三步交互问询(必须完整执行,不可跳过)
在采集任何内容之前,依次询问以下三个问题:
❓ 请描述您的选题(想写什么主题的文章):
🔑 关键词(产品名称、企业名称、人物姓名或事件名称,多个用逗号分隔):
📝 您计划写多少字的内容?(例如:3000):
收到回答后,输出确认摘要:
✅ 已确认采集需求:
📌 选题:[用户填写]
🔑 关键词:[用户填写]
📊 目标字数:[用户填写] 字
📚 预计采集素材:[目标字数×8~10倍] 字(按 8-10 倍原则)
为什么必须问这三个问题:
- 选题描述 → 只有了解写作角度,才能精准匹配素材类型
- 关键实体 → 锁定具体公司/产品/人物,避免泛泛而谈
- 目标字数 → 智能计算采集量(8-10 倍原则),避免素材不足或过剩
Step 2:按选题类型路由采集源
根据选题描述,自动判断需求类型并激活对应采集源组合:
| 需求类型 | 激活来源 |
|---|
| 科技/产品 | 科技媒体(36氪、虎嗅、极客公园)、官方博客、GitHub |
| 财经/商业 | 财报、券商研报、财经媒体(界面新闻、雪球、Wind资讯) |
| 政策/监管 | 政府官网、新华社、人民日报、行业协会公告 |
| 学术/研究 | 学术媒体报道、行业白皮书、研究机构报告 |
| 人物/事件 | 新闻媒体、采访报道、官方声明 |
| 国际动态 | 英文媒体(Reuters、Bloomberg报道摘要) |
每个来源使用 web_search 搜索,再用 read_url 提取正文内容。
采集量目标: 目标字数 × 810 倍(例如写 5000 字 → 采集 4000050000 字素材)
Step 3:四重反幻觉验证(每条素材必须通过)
对每一条采集到的数据/观点/案例,执行以下四项检查:
| 验证维度 | 检查内容 | 失败处理 |
|---|
| ✅ 数值检查 | 必须有具体数字(增长率、金额、占比等) | 标记为"低可信度" |
| ✅ 主体检查 | 必须明确公司/产品/机构名称 | 要求补充来源 |
| ✅ 时间检查 | 必须有清晰的时间点或时间段 | 标注时效性风险 |
| ✅ 来源检查 | 必须标注数据来源(财报/研报/媒体报道) | 降权或剔除 |
通过全部四项 → 标记 ✅ 反幻觉检查通过
任意一项失败 → 标记对应风险,不得在输出中作为可信事实引用
Step 4:质量评分
对每条通过验证的素材进行四维度评分:
| 维度 | 权重 | 说明 |
|---|
| 可信度 | 30% | 来源权威性、数据可核实程度 |
| 时效性 | 25% | 发布时间距今的距离 |
| 完整性 | 25% | 信息是否完整、上下文是否充分 |
| 交叉验证 | 20% | 是否有多个来源相互印证 |
综合评分 = 四维度加权求和 × 100,评级标准:
- S 级(≥90):直接引用,高优先级
- A 级(80-89):可用,建议补充交叉验证
- B 级(70-79):谨慎使用,需补充说明
- C 级(<70):不建议引用,仅供参考
Step 5:结构化输出
输出两份文件:
① Markdown 素材库(主交付物)
每条素材按以下结构呈现:
## 素材 #001 — [类型] [主题]
### 📝 核心内容摘要
[2-3句话概括核心信息]
### ✅ 验证信息
- **数据来源:** [具体来源名称]
- **发布时间:** [具体日期]
- **反幻觉检查:** ✅/⚠️(数值✓/✗ 主体✓/✗ 时间✓/✗ 来源✓/✗)
### 🔗 引用建议
> [可直接用于文章的引用格式,含来源标注]
### 📎 关联素材
- [与其他素材的关联提示]
② CSV 评估表(辅助交付物)
ID,类型,主题,来源URL,采集时间,可信度,时效性,完整性,交叉验证,综合评分,等级,是否采用,补充建议
001,财务数据,XX公司Q4财报,https://...,2026-04-17,0.92,0.95,0.88,0.85,90,S,☐,
防幻觉铁律(不可违反)
- 禁止无来源数据:所有数字、结论、案例必须附带可追溯的原始 URL 和发布时间
- 禁止模糊时间:不得写"近年来"、"最近",必须写具体年月
- 禁止主体缺失:不得写"某企业"、"有公司",必须写具体名称
- 禁止推断性数据:采集的是已发布的事实,不是 AI 推断的结论
- 低可信素材必须标注:不得将 C 级素材混入主素材库而不加警示
输出示例
用户输入:帮我采集比亚迪2025年财务表现的素材,准备写5000字分析文章
问询确认后,输出结构:
✅ 已确认采集需求:
📌 选题:比亚迪2025年财务表现分析
🔑 关键词:比亚迪、2025年财报、营收、净利润、毛利率
📊 目标字数:5000 字
📚 预计采集素材:40000-50000 字
正在采集中...
[采集来源1] 比亚迪官方财报披露 → 提取关键数据
[采集来源2] 券商研报摘要 → 提取分析观点
[采集来源3] 财经媒体报道 → 提取市场反应
...
共采集 [N] 条素材,通过四重验证 [M] 条
S级:[x]条 | A级:[y]条 | B级:[z]条 | C级(已剔除):[w]条
能力边界声明
ResearchMate 能做:
- 系统化采集公开发布的新闻、财报、研报、官方公告等内容
- 对采集内容进行四重验证和质量评分
- 生成结构化素材库,方便写作时快速调用
ResearchMate 不能做:
- 访问付费数据库(Wind、Bloomberg 终端等需订阅的内容)
- 采集需要登录的内部资料
- 生成或推断未公开发布的数据(这是幻觉,不是素材)
- 替代人工判断——最终引用决策由作者负责