AI 资料收集工具
从指定渠道搜索和收集 AI 及汽车行业最新资料,整理成结构化 Excel 表格。
🔴 强制规则(违反任何一条即判定为失败)
规则1: 禁止使用不可靠来源
禁止收录的来源(这些是论坛/社区/UGC,不是新闻,不可交叉印证):
| 禁止来源 | 原因 |
|---|
| zhihu.com(知乎) | 用户生成内容,观点非事实,无法交叉验证 |
| weibo.com(微博) | 社交媒体,信息未经核实 |
| bbs、论坛、贴吧 | 用户讨论,非权威报道 |
| quora.com、reddit.com | UGC内容,同上 |
| 任何问答页面 | "如何评价XX"不是新闻 |
| toutiao.com(今日头条) | 算法推荐聚合,信息源混杂不可靠 |
必须使用的来源(权威媒体,可交叉印证):
| 来源 | 域名 | 可靠性 |
|---|
| IT之家 | ithome.com | ✅ 科技新闻 |
| 腾讯新闻 | new.qq.com | ✅ 综合新闻 |
| 新华网 | xinhuanet.com | ✅ 官方权威 |
| 澎湃新闻 | thepaper.cn | ✅ 深度报道 |
| 36氪 | 36kr.com | ✅ 行业资讯 |
| 新浪财经 | finance.sina.com.cn | ✅ 财经数据 |
| 每日经济新闻 | nbd.com.cn | ✅ 财经+科技 |
| 机器之心 | jiqizhixin.com | ✅ AI专业媒体 |
| 财新网 | caixin.com | ✅ 财经权威 |
| 第一财经 | yicai.com | ✅ 财经+产业 |
| 中国新闻网 | chinanews.com | ✅ 官方新闻 |
| 证券时报 | stcn.com | ✅ 上市公司信息 |
| 各公司官方博客 | blog.google、openai.com | ✅ 一手信息 |
⚠️ 搜索结果中出现 zhihu.com/weibo.com/toutiao.com 链接时,直接跳过,不要点击、不要抓取、不要收录。
规则2: 必须抓取详情页,禁止使用搜索摘要
搜索结果中的 snippet ≠ 摘要。每条收录的信息必须经过以下流程:
搜索发现链接 → web_fetch抓取原文 → 从原文提取核心要点 → 写入摘要
禁止的摘要写法:
❌ "关键词搜索结果:个人怎么才能使用OpenAI?" → 这是搜索snippet
❌ "如何评价OpenAI最新发布的GPT-5.4 mini?" → 这是搜索snippet
❌ "OpenAI发布了新模型" → 没有从原文提取
合格的摘要写法:
✅ "谷歌在Cloud Next大会发布第八代TPU,首次拆分训练与推理专用芯片。推理成本降低40%,Meta和Anthropic已签大单。" → 从原文提取,含具体数据
✅ "K2.6开源发布,1T参数MoE架构,256K上下文。SWE-Bench Pro超越GPT-5.4和Claude Opus 4.6。" → 从原文提取,含评测数据
规则3: 每次执行必须重新搜索,禁止复用历史数据
- 用户每次要求收集信息时,必须从头执行全部搜索,不得复用之前的搜索结果
- 即使同一用户短时间内多次请求,也要重新搜索
- 不得使用缓存的搜索结果或之前生成的数据
- 所有搜索调用必须实际执行,不能假设"上次搜过了所以跳过"
- 绝对不能因为"上次已搜索过同类信息"而省略任何搜索步骤
规则4: 日期必须精确到日
- 发布时间必须是
YYYY-MM-DD 格式
YYYY-MM 格式 → 丢弃
YYYY 格式 → 丢弃
- 无法确认精确日期的记录 → 丢弃
规则5: 禁止回退到纯英文来源
- 不允许因为"中文站点无法访问"而放弃中文来源
- 当
web_search 中文结果不足时,必须使用 web_fetch 直接抓取中文新闻站列表页(见步骤2B降级策略)
- 英文来源(The Verge、TechCrunch等)只能作为补充,不能成为主体
- 最终报告中,中文来源占比必须 ≥60%
规则6: 多渠道交叉印证,禁止单一来源垄断
- 单一域名链接占比不得超过50%:如果超过50%的记录链接来自同一域名(如全部来自ithome.com),必须从其他渠道补充
- 每条记录至少2个不同渠道验证:对每个事件,必须从至少2个不同权威媒体搜索确认,选择最权威可信的链接作为主链接
- 摘要应综合多渠道信息:核心要点摘要应融合多个渠道的报道内容,而非仅依赖单一来源
- 文档/链接选择最权威来源:优先选择:官方来源 > 通讯社(新华社等) > 深度媒体(澎湃/财新) > 综合媒体(腾讯新闻) > 科技媒体(IT之家/36氪)
依赖检查(必须首先执行)
python3 -c "import openpyxl" 2>/dev/null || echo "MISSING: openpyxl"
| 依赖 | 用途 | 安装命令 |
|---|
| python3 | 生成Excel | 系统自带 |
| openpyxl | Excel文件生成 | pip3 install openpyxl |
如果依赖缺失,输出以下提示后停止:
⚠️ 缺少必要依赖:[依赖名]
请运行:[安装命令]
安装完成后重新执行本技能。
📊 质量基线(必须达标)
以下标准基于实际产出周报的质量验证,每条记录必须对标:
| 指标 | 最低标准 | 优秀标准 | 实际案例 |
|---|
| 总记录数 | ≥15条 | ≥25条 | 25条(周报) |
| 类别覆盖 | ≥6个类别 | 8个类别全覆盖 | 8/8全覆盖 |
| 摘要字数 | 50-100字 | 70-100字含具体数据 | 平均76字 |
| 日期格式 | YYYY-MM-DD | YYYY-MM-DD | 100%合规 |
| 链接有效性 | ≥90%可访问 | 100%可访问 | 100%有效 |
| 来源具体度 | 公司/机构名 | 公司+部门/团队 | "Google Cloud"非"Google" |
| 不可靠来源占比 | 0% | 0% | 0%知乎/微博 |
| 中文来源占比 | ≥60% | ≥80% | 80%中文来源 |
| 单一域名占比 | ≤50% | ≤30% | 无单一域名超50% |
| 交叉印证率 | ≥50%记录 | ≥80%记录 | 至少2渠道验证 |
每条记录质量对照
优秀记录示例(必须达到此质量):
材料类别: AI基础设施
来源/发布机构: Google Cloud ← 具体到部门
材料名称: 谷歌发布第八代TPU v8双芯:TPU 8t训练+TPU 8i推理 ← 事件+具体型号+关键差异
发布时间: 2026-04-22 ← 精确到日
核心要点摘要: 谷歌在Cloud Next大会发布第八代TPU,首次拆分训练与推理专用芯片。推理成本降低40%,Meta和Anthropic已签大单。同时宣布7.5亿美元基金推动企业AI采用。 ← 从原文提取,含具体数据
文档/链接: https://www.thepaper.cn/newsDetail_forward_33029483 ← 深度媒体为主链接
印证来源: https://www.36kr.com/p/xxx, https://www.ithome.com/0/941/418.htm ← 不同域名佐证
不合格记录示例(必须避免):
❌ 来源/发布机构: 知乎 → 禁止来源
❌ 来源/发布机构: 科技公司 → 太泛
❌ 材料名称: 如何评价OpenAI最新发布 → 这是知乎问答标题,不是新闻事件
❌ 核心要点摘要: 关键词搜索结果:... → 搜索snippet,未抓取原文
❌ 核心要点摘要: 谷歌发布了新芯片 → 缺少具体数据
❌ 发布时间: 2026-04 → 必须精确到日
❌ 文档/链接: https://www.zhihu.com/ → 禁止来源
❌ 文档/链接: https://www.theverge.com/... → 英文来源,必须有中文源交叉印证
❌ 印证来源: https://www.ithome.com/0/941/xxx → 与主链接同域名,不算交叉印证
❌ 印证来源: 无 → 每条记录应有≥1个不同域名的佐证
❌ 全部15条链接都是ithome.com → 单渠道垄断,必须分散到多个媒体
类别最低记录数
| 类别 | 周报最低条数 | 说明 |
|---|
| AI基础设施 | ≥3 | 含算力、芯片、数据中心 |
| 模型能力 | ≥3 | 含大模型发布、开源、评测 |
| 智能体开发平台 | ≥2 | 含Agent、MCP、开发平台 |
| AI安全 | ≥2 | 含合规、治理、政策 |
| 研发 | ≥2 | 含技术创新、政策支持 |
| 制造运营 | ≥2 | 含量产、产线、机器人 |
| 财经人力 | ≥1 | 含融资、营收、人事 |
| 营销 | ≥1 | 含市场、品牌、合作 |
🚫 绝对禁止事项
- 禁止编造日期:发布时间必须是文章中明确标注的日期
- 禁止使用模糊日期:发布时间必须是
YYYY-MM-DD 格式,不接受 YYYY-MM 或 YYYY
- 禁止收录旧数据:严格按用户指定时间范围过滤
- 禁止收录产品介绍页:只收录新闻/事件/报告发布,不收录常驻产品页面
- 禁止自行推测内容:无法核实的内容直接丢弃
- 禁止收录知乎/微博/论坛/今日头条内容:只收录权威新闻媒体和官方来源
- 禁止用搜索snippet当摘要:必须抓取原文提取核心要点
- 禁止摘要无数据:核心要点摘要必须包含至少1个具体数值(百分比、金额、数量、排名等)
- 禁止来源笼统:来源/发布机构必须具体到公司/部门,不能写"行业"、"科技公司"等泛称
- 禁止标题空洞:材料名称必须包含具体事件或关键差异点
- 禁止复用历史搜索数据:每次执行必须重新搜索
- 禁止跳过详情抓取:每条记录必须从原文页面获取信息
- 禁止因中文搜索不足就放弃中文来源:必须执行降级策略(步骤2B),不得直接回退英文媒体
- 禁止提示用户"技术限制"作为借口:中文来源不足时主动用web_fetch抓取列表页,不得输出"部分中文站点无法访问"
- 禁止单渠道垄断:单一域名链接占比超过50%时,必须从其他渠道补充并替换
- 禁止无交叉印证:每条记录至少应有1个不同域名的佐证链接,重大事件必须有2个不同渠道
✅ 搜索策略:三级搜索确保中文来源
核心原则:绝不放弃中文来源
第一级:web_search + site: 限定权威来源(主力)
↓ 结果不足?
第二级:web_fetch 直接抓取中文新闻站列表页(降级)
↓ 仍不足?
第三级:web_search 英文来源补充(仅补充,不超过40%)
第一级:站内搜索锁定权威来源
用 site: 限定权威媒体,避免泛搜返回知乎:
// ✅ 正确:限定权威媒体来源
web_search({ query: "site:ithome.com 大模型 发布 最新", freshness: "week", count: 10 })
web_search({ query: "site:new.qq.com AI 芯片 最新", freshness: "week", count: 10 })
// ❌ 错误:泛搜返回大量知乎结果
web_search({ query: "AI大模型 最新" }) // 会返回大量 zhihu.com 链接
第二级:web_fetch 直接抓取中文新闻站列表页(关键降级策略)
当 web_search 返回的中文结果不足10条时,必须执行此步骤。这是解决"中文站点无法访问"问题的核心策略。
直接 web_fetch 访问以下中文新闻站的列表页/频道页,从页面中提取最新文章标题和链接:
// IT之家 AI频道 - 最可靠的中文科技新闻源
web_fetch({ url: "https://www.ithome.com/tag/AI/", fetchInfo: "提取页面中所有AI相关新闻的标题、链接和日期" })
web_fetch({ url: "https://www.ithome.com/tag/%E4%BA%BA%E5%B7%A5%E6%99%BA%E8%83%BD/", fetchInfo: "提取页面中所有人工智能相关新闻的标题、链接和日期" })
// 36氪 AI频道
web_fetch({ url: "https://36kr.com/information/AI/", fetchInfo: "提取页面中所有AI相关新闻的标题、链接和日期" })
// 机器之心 - AI专业媒体
web_fetch({ url: "https://www.jiqizhixin.com/", fetchInfo: "提取首页所有文章的标题、链接和日期" })
// 澎湃新闻 科技频道
web_fetch({ url: "https://www.thepaper.cn/channel_25951", fetchInfo: "提取科技频道所有新闻的标题、链接和日期" })
// 腾讯新闻 科技频道
web_fetch({ url: "https://new.qq.com/ch/tech/", fetchInfo: "提取科技频道所有新闻的标题、链接和日期" })
// 新浪财经 科技频道
web_fetch({ url: "https://finance.sina.com.cn/tech/", fetchInfo: "提取科技频道所有新闻的标题、链接和日期" })
执行条件:
- 步骤2A 的
web_search 返回的中文权威来源链接 < 10条
- 或者搜索结果中超过50%是知乎/微博等不可靠来源
从列表页提取信息后:
- 从页面中找到日期在
DATE_START ~ DATE_END 范围内的文章
- 对每篇文章执行
web_fetch 抓取详情页
- 提取核心要点写入摘要
第三级:英文来源补充(严格限制)
英文来源只能作为中文来源的补充,不得超过总记录数的40%:
// 仅在中文来源不足时使用
web_search({ query: "site:theverge.com AI latest", freshness: "week", count: 5 })
web_search({ query: "site:techcrunch.com AI model release", freshness: "week", count: 5 })
web_search({ query: "site:arstechnica.com AI chip", freshness: "week", count: 5 })
⚠️ 英文来源必须有中文权威媒体交叉印证。如果某个事件只有英文媒体报道、无任何中文来源提及,可以收录但需在摘要末尾标注 [仅英文来源]。
收集流程(7步)
步骤1: 解析需求 → 计算日期范围
↓
步骤2A: 站内搜索(site:限定权威来源,排除知乎微博)
↓ 中文结果不足10条?
步骤2B: web_fetch 直接抓取中文新闻站列表页(降级策略,必须执行)
↓ 仍不足?
步骤2C: 英文来源补充(不超过总数40%)
↓
步骤3: 逐条 web_fetch 抓取原文详情(必须步骤,不可跳过)
↓
步骤4: 从原文提取结构化信息 + 日期验证 + 事实核查
↓
步骤5: 生成 Excel 文件(必须完成)
↓
步骤6: 输出文本表格 + 质量自检
步骤1: 解析需求,计算日期范围
| 用户表述 | 计算方式 | 示例(今天是2026-04-23) |
|---|
| 最近一周 | 今天 - 6天 ~ 今天 | 2026-04-16 ~ 2026-04-23 |
| 最近两周 | 今天 - 13天 ~ 今天 | 2026-04-09 ~ 2026-04-23 |
| 最近一个月 | 今天 - 29天 ~ 今天 | 2026-03-24 ~ 2026-04-23 |
将日期范围记录为 DATE_START 和 DATE_END,后续搜索必须使用。
步骤2A: 站内搜索锁定权威来源
搜索方式
// 方式1:site: 限定权威来源(推荐)
web_search({ query: "site:ithome.com 大模型 发布 最新", freshness: "week", count: 10 })
// 方式2:OR 组合多个权威来源
web_search({ query: "site:ithome.com OR site:36kr.com OR site:new.qq.com AI 发布", freshness: "week", count: 10 })
// 方式3:负向排除不可靠来源
web_search({ query: "AI大模型 发布 最新 -site:zhihu.com -site:weibo.com -site:toutiao.com", freshness: "week", count: 10 })
⚠️ 搜索结果中如果出现 zhihu.com / weibo.com / toutiao.com 链接,直接丢弃,不要点击或抓取。
搜索模板(共15次,确保多渠道覆盖)
⚠️ 关键原则:每组搜索必须分散到不同权威媒体站点,不得全部集中在 ithome.com。每次搜索应交替使用不同的 site: 组合。
搜索组A:模型厂商动态(4次,覆盖4组不同媒体)
// A1:国际厂商 - IT之家+36氪
web_search({ query: "site:ithome.com OR site:36kr.com OpenAI Anthropic Google Gemini 大模型 发布", freshness: "week", date_after: DATE_START, date_before: DATE_END, count: 10, country: "CN", language: "zh" })
// A2:国际厂商 - 腾讯新闻+澎湃(与A1不同渠道交叉)
web_search({ query: "site:new.qq.com OR site:thepaper.cn OpenAI Anthropic Google 大模型 发布 最新", freshness: "week", date_after: DATE_START, date_before: DATE_END, count: 10, country: "CN", language: "zh" })
// A3:国内厂商 - 每经+新浪财经
web_search({ query: "site:nbd.com.cn OR site:finance.sina.com.cn 阿里千问 字节豆包 智谱 腾讯混元 Kimi 发布", freshness: "week", date_after: DATE_START, date_before: DATE_END, count: 10, country: "CN", language: "zh" })
// A4:开源模型 - 机器之心+第一财经(排除知乎)
web_search({ query: "site:jiqizhixin.com OR site:yicai.com DeepSeek Meta Llama 开源模型 发布 -site:zhihu.com -site:weibo.com -site:toutiao.com", freshness: "week", date_after: DATE_START, date_before: DATE_END, count: 10, country: "CN", language: "zh" })
搜索组B:AI基础设施与智能体(3次,覆盖3组不同媒体)
// B1:AI算力/芯片 - IT之家+新浪财经
web_search({ query: "site:ithome.com OR site:finance.sina.com.cn AI算力 芯片 GPU TPU 数据中心 英伟达", freshness: "week", date_after: DATE_START, date_before: DATE_END, count: 10, country: "CN", language: "zh" })
// B2:AI算力/芯片 - 36氪+每经(与B1交叉)
web_search({ query: "site:36kr.com OR site:nbd.com.cn AI算力 英伟达 AMD 芯片 数据中心", freshness: "week", date_after: DATE_START, date_before: DATE_END, count: 10, country: "CN", language: "zh" })
// B3:智能体/Agent - 机器之心+腾讯新闻
web_search({ query: "site:jiqizhixin.com OR site:new.qq.com AI Agent 智能体 MCP 框架 平台", freshness: "week", date_after: DATE_START, date_before: DATE_END, count: 10, country: "CN", language: "zh" })
搜索组C:AI安全与政策(2次,覆盖2组不同媒体)
// C1:AI安全 - 新华网+澎湃
web_search({ query: "site:xinhuanet.com OR site:thepaper.cn AI安全 合规 治理 监管 政策", freshness: "week", date_after: DATE_START, date_before: DATE_END, count: 10, country: "CN", language: "zh" })
// C2:AI政策 - 政府官方+财新
web_search({ query: "site:gov.cn OR site:caixin.com 人工智能 政策 法规 工信部 国务院", freshness: "week", date_after: DATE_START, date_before: DATE_END, count: 10, country: "CN", language: "zh" })
搜索组D:汽车行业(2次,覆盖2组不同媒体)
// D1:汽车行业 - 新浪财经+每经
web_search({ query: "site:finance.sina.com.cn OR site:nbd.com.cn 汽车 智驾 产销 比亚迪 吉利", freshness: "week", date_after: DATE_START, date_before: DATE_END, count: 10, country: "CN", language: "zh" })
// D2:智能制造 - 证券时报+腾讯新闻
web_search({ query: "site:stcn.com OR site:new.qq.com 上汽 美的 三一 智能制造 AI", freshness: "week", date_after: DATE_START, date_before: DATE_END, count: 10, country: "CN", language: "zh" })
搜索组E:机器人与咨询报告(2次,覆盖2组不同媒体)
// E1:机器人 - 澎湃+第一财经
web_search({ query: "site:thepaper.cn OR site:yicai.com 人形机器人 量产 特斯拉 宇树 优必选", freshness: "week", date_after: DATE_START, date_before: DATE_END, count: 10, country: "CN", language: "zh" })
// E2:咨询报告 - 36氪+IT之家
web_search({ query: "site:36kr.com OR site:ithome.com 麦肯锡 德勤 Gartner IDC 行业报告 AI", freshness: "week", date_after: DATE_START, date_before: DATE_END, count: 10, country: "CN", language: "zh" })
搜索组F:交叉印证搜索(2次,确保多渠道覆盖)
// F1:本周重大事件 - 多站交叉(不限定site:,排除不可靠来源)
web_search({ query: "AI 大模型 发布 芯片 最新新闻 -site:zhihu.com -site:weibo.com -site:toutiao.com", freshness: "week", date_after: DATE_START, date_before: DATE_END, count: 15, country: "CN", language: "zh" })
// F2:汽车+AI交叉 - 多站交叉
web_search({ query: "汽车 智能制造 机器人 AI 最新 -site:zhihu.com -site:weibo.com -site:toutiao.com", freshness: "week", date_after: DATE_START, date_before: DATE_END, count: 15, country: "CN", language: "zh" })
步骤2B: 降级策略 — web_fetch 直接抓取中文新闻站
触发条件:步骤2A返回的中文权威来源链接 < 10条
执行方式:并行 web_fetch 以下列表页,从中提取文章标题、链接、日期:
| 站点 | 列表页URL | 抓取目标 |
|---|
| IT之家 | https://www.ithome.com/tag/AI/ | AI标签页所有文章 |
| IT之家 | https://www.ithome.com/tag/%E4%BA%BA%E5%B7%A5%E6%99%BA%E8%83%BD/ | 人工智能标签页 |
| 36氪 | https://36kr.com/information/AI/ | AI频道 |
| 机器之心 | https://www.jiqizhixin.com/ | 首页文章列表 |
| 澎湃新闻 | https://www.thepaper.cn/channel_25951 | 科技频道 |
| 腾讯新闻 | https://new.qq.com/ch/tech/ | 科技频道 |
| 新浪科技 | https://finance.sina.com.cn/tech/ | 科技频道 |
| 每经网 | https://www.nbd.com.cn/columns/232/ | 科技频道 |
操作步骤:
1. 并行 web_fetch 所有列表页
2. 从返回的HTML/Markdown中提取:
- 文章标题
- 文章链接(补全为完整URL)
- 发布日期(与 DATE_START~DATE_END 比对)
3. 筛选日期范围内的文章
4. 对筛选出的文章逐条 web_fetch 抓取详情页
5. 从详情页提取核心要点
⚠️ 列表页 web_fetch 可能返回403(部分站点有反爬),如果某个站点403,跳过该站点,继续抓取其他站点。不要因为一个站点403就放弃所有中文来源。
步骤2C: 英文来源补充(严格限制)
触发条件:步骤2A + 2B 仍无法收集到 ≥15条中文来源记录
执行方式:
web_search({ query: "site:theverge.com AI model release latest", freshness: "week", count: 5 })
web_search({ query: "site:techcrunch.com AI chip infrastructure", freshness: "week", count: 5 })
web_search({ query: "site:arstechnica.com AI safety policy", freshness: "week", count: 5 })
web_search({ query: "site:blog.google OR site:openai.com announcement", freshness: "week", count: 5 })
限制:
- 英文来源记录数 ≤ 总记录数的40%
- 每条英文记录必须有中文权威媒体交叉印证
- 无中文印证的标注
[仅英文来源]
步骤3: 抓取原文详情(核心步骤,不可跳过)
这是防止"搜索snippet当摘要"的关键步骤。
对每一条搜索结果:
- 检查链接域名:如果是 zhihu.com/weibo.com/论坛/toutiao.com → 直接跳过
- web_fetch 抓取原文:获取完整文章内容
- 从原文提取:发布日期、核心数据、事件细节
- 如果 web_fetch 返回403或空:跳过该链接,不要用搜索snippet替代
不同站点的抓取策略
| 站点 | 抓取方式 | 说明 |
|---|
| IT之家、36氪、澎湃、腾讯新闻 | web_fetch | 通常允许访问 |
| 新华网、新浪财经、第一财经 | web_fetch | 通常允许访问 |
| 财新网、每经网 | web_fetch | 通常允许访问 |
| 机器之心 | web_fetch | AI专业媒体,通常允许 |
| 知乎、微博、微信、今日头条 | 直接跳过 | 禁止收录 |
⚠️ 如果 web_fetch 返回 403 或空内容,丢弃该条记录。绝不能用搜索snippet代替原文摘要。
步骤4: 提取结构化信息 + 交叉印证 + 日期验证
7个字段
交叉印证流程(每条记录必须执行)
1. 识别事件关键词 → 提取核心实体(如"谷歌 TPUv8")
2. 用关键词在至少1个不同权威媒体搜索验证
web_search({ query: "谷歌 TPUv8 发布 site:new.qq.com OR site:36kr.com", freshness: "week", count: 5 })
3. 找到佐证链接 → 记录到「印证来源」字段
4. 选择最权威的链接作为主「文档/链接」
5. 综合多渠道信息写入摘要,重要数据标注来源
链接权威性优先级(选择主链接时参考):
1. 官方来源(openai.com、blog.google) → 最高权威
2. 通讯社/官方媒体(xinhuanet.com) → 官方背书
3. 深度媒体(thepaper.cn、caixin.com) → 深度调查
4. 综合新闻(new.qq.com、chinanews.com) → 广泛传播
5. 行业媒体(36kr.com、jiqizhixin.com) → 专业领域
6. 科技媒体(ithome.com) → 快速报道
⚠️ 如果某个事件只能找到单一来源,在「印证来源」列填"单源",摘要末尾标注 [待核实]。
日期验证(每条记录必须通过,任一不通过则丢弃)
□ 发布时间是否为 YYYY-MM-DD 格式?(不是则丢弃)
□ 发布时间是否 >= DATE_START?(不是则丢弃)
□ 发布时间是否 <= DATE_END?(不是则丢弃)
□ 发布时间是否合理?(不是未来日期,不是1年前的日期)
来源可靠性验证
□ 链接域名是否为权威媒体?(知乎/微博/论坛/今日头条 → 丢弃)
□ 来源/发布机构是否具体?("行业"/"科技公司" → 丢弃)
□ 摘要是否从原文提取?(搜索snippet → 丢弃)
□ 摘要是否含具体数据?(无数据 → 重写或丢弃)
□ 英文来源是否≤40%?(超过 → 减少英文记录)
□ 印证来源是否≥1个不同域名?(单一来源标注[待核实])
□ 单一域名链接是否≤50%?(超过 → 必须从其他渠道补充)
事实核查
对重大事件(新模型发布、政策法规、企业重大合作、融资数据),必须2个不同权威来源交叉验证。只能找到1个来源时,摘要末尾标注 [待核实]。
去重
- 按 URL 去重
- 按事件去重:同一事件保留信息最全且日期最新的一条
- 按标题去重:标题高度相似(>80%)视为同一事件
步骤5: 生成 Excel 文件(必须完成)
使用 Python + openpyxl 生成:
from openpyxl import Workbook
from openpyxl.styles import Font, Alignment, PatternFill, Border, Side
from datetime import datetime
wb = Workbook()
ws = wb.active
ws.title = "信息扫描周报"
headers = ["材料类别", "来源/发布机构", "材料名称", "发布时间", "核心要点摘要", "文档/链接", "印证来源"]
hfont = Font(name='Arial', bold=True, color='FFFFFF', size=11)
hfill = PatternFill(start_color='2F5496', end_color='2F5496', fill_type='solid')
border = Border(left=Side(style='thin'), right=Side(style='thin'),
top=Side(style='thin'), bottom=Side(style='thin'))
for col, h in enumerate(headers, 1):
c = ws.cell(row=1, column=col, value=h)
c.font, c.fill, c.border = hfont, hfill, border
c.alignment = Alignment(horizontal='center', vertical='center', wrap_text=True)
cat_colors = {
'AI基础设施': 'E2EFDA', '模型能力': 'D6E4F0', '智能体开发平台': 'FCE4D6',
'AI安全': 'F2DCDB', '研发': 'D9E2F3', '制造运营': 'E2EFDA',
'财经人力': 'FFF2CC', '营销': 'EDEDED',
}
link_font = Font(name='Arial', size=10, color='0563C1', underline='single')
for ri, item in enumerate(data, 2):
for ci, val in enumerate(item, 1):
ws.cell(row=ri, column=ci, value=val)
for ci in range(1, 8):
cell = ws.cell(row=ri, column=ci)
cell.border = border
cell.font = Font(name='Arial', size=10)
cell.alignment = Alignment(vertical='center', wrap_text=True)
color = cat_colors.get(item[0])
if color:
ws.cell(row=ri, column=1).fill = PatternFill(start_color=color, end_color=color, fill_type='solid')
ws.cell(row=ri, column=1).alignment = Alignment(horizontal='center', vertical='center', wrap_text=True)
ws.cell(row=ri, column=4).alignment = Alignment(horizontal='center', vertical='center')
# 文档/链接列(F列)- 设置为可点击超链接
url_cell = ws.cell(row=ri, column=6)
url = str(url_cell.value or '')
if url.startswith('http'):
url_cell.hyperlink = url
url_cell.font = link_font
else:
url_cell.font = Font(name='Arial', size=10)
# 印证来源列(G列)- 设为可点击超链接
# 规则:如果有多个佐证链接,只取第一个设为hyperlink(openpyxl限制),
# 其余链接以纯文本显示在下方,用户可复制到浏览器打开
ref_cell = ws.cell(row=ri, column=7)
ref_val = str(ref_cell.value or '')
ref_urls = [u.strip() for u in ref_val.replace(',', ',').split(',') if u.strip().startswith('http')]
if len(ref_urls) >= 1:
ref_cell.hyperlink = ref_urls[0]
ref_cell.font = link_font
if len(ref_urls) > 1:
# 多个佐证:第一个可点击,其余附在单元格值中
ref_cell.value = ref_val
elif ref_val and ref_val != '单源':
ref_cell.font = Font(name='Arial', size=10)
ws.column_dimensions['A'].width = 16
ws.column_dimensions['B'].width = 22
ws.column_dimensions['C'].width = 52
ws.column_dimensions['D'].width = 12
ws.column_dimensions['E'].width = 65
ws.column_dimensions['F'].width = 50
ws.column_dimensions['G'].width = 50
ws.freeze_panes = 'A2'
ws.auto_filter.ref = f'A1:G{len(data)+1}'
date_str = datetime.now().strftime("%Y-%m-%d")
filepath = f"信息扫描周报_{date_str}.xlsx"
wb.save(filepath)
print(f"已保存: {filepath},共 {len(data)} 条记录")
openpyxl 未安装时降级为 CSV:
import csv
date_str = datetime.now().strftime("%Y-%m-%d")
filepath = f"信息扫描周报_{date_str}.csv"
with open(filepath, 'w', newline='', encoding='utf-8-sig') as f:
writer = csv.writer(f)
writer.writerow(["材料类别", "来源/发布机构", "材料名称", "发布时间", "核心要点摘要", "文档/链接", "印证来源"])
for item in data:
writer.writerow(item)
步骤6: 输出文本表格 + 质量自检
输出文本表格后,必须执行质量自检:
| 材料类别 | 来源 | 材料名称 | 发布时间 | 核心要点摘要 | 文档/链接 |
|----------|------|----------|----------|--------------|----------|
| 模型能力 | OpenAI | GPT-Image-2发布 | 2026-04-21 | ... | https://... |
质量自检清单(必须逐项检查并报告)
□ 总记录数是否 ≥15条?
□ 8个类别是否都有覆盖?
□ 所有日期是否为 YYYY-MM-DD 格式?
□ 所有链接域名是否为权威媒体(无知乎/微博/论坛/今日头条)?
□ 所有摘要是否从原文提取(无"关键词搜索结果"字样)?
□ 所有摘要是否含具体数据?
□ 所有来源/发布机构是否具体到公司/部门?
□ 是否所有搜索都是本次新执行的(非历史数据复用)?
□ 中文来源占比是否 ≥60%?
□ 英文来源是否 ≤40%?
□ 单一域名链接占比是否 ≤50%?(如ithome.com不超过50%)
□ 交叉印证率是否 ≥50%?(至少一半记录有≥2个不同渠道佐证)
□ 所有「印证来源」是否为不同域名?(不能与「文档/链接」同域名)
如果自检不通过,必须补充搜索和修正,直到达标。
扫描对象参考
国家机构
国务院、工信部、信通院、发改委、中国汽车工业协会、自动化所、国家网信办
咨询公司
麦肯锡、波士顿、德勤、普华永道、毕马威、安永、IBM、Gartner、IDC
模型厂商
Google(Gemini)、OpenAI、Meta(Llama)、阿里(千问)、字节(豆包)、百度(文心)、腾讯(混元)、月之暗面(Kimi)、智谱(GLM)、DeepSeek
机器人厂商
特斯拉(Optimus)、波士顿动力、优必选、银河通用、宇树科技、松延动力
头部企业
美的、比亚迪、上汽、三一、吉利
权威搜索来源
搜索时用 site: 限定以下来源,或用 -site:zhihu.com -site:weibo.com 排除不可靠来源:
| 来源 | 搜索词建议 | 可靠性 |
|---|
| IT之家 | site:ithome.com | ✅ 权威科技媒体 |
| 腾讯新闻 | site:new.qq.com | ✅ 综合新闻 |
| 新华网 | site:xinhuanet.com | ✅ 官方权威 |
| 澎湃新闻 | site:thepaper.cn | ✅ 深度报道 |
| 36氪 | site:36kr.com | ✅ 行业资讯 |
| 新浪财经 | site:finance.sina.com.cn | ✅ 财经数据 |
| 每日经济新闻 | site:nbd.com.cn | ✅ 财经+科技 |
| 机器之心 | site:jiqizhixin.com | ✅ AI专业媒体 |
| 财新网 | site:caixin.com | ✅ 财经权威 |
| 第一财经 | site:yicai.com | ✅ 财经+产业 |
模型能力评估渠道
上市公司信息
可选增强 Skill 安装指南
以下 Skill 非必需,但安装后可显著提升搜索和抓取效果:
multi-search-engine(推荐,无需 API Key)
npx clawhub@latest install multi-search-engine
增强能力:17引擎聚合搜索 + tbs=qdr:w 时间过滤 + 微信公众号搜索 + site: 站内搜索
xcrawl-search + xcrawl-scrape(解决403反爬)
npx clawhub@latest install xcrawl-search
npx clawhub@latest install xcrawl-scrape
增强能力:绕过99%反爬机制 + JS渲染 + 中文位置语言优化
安装后需按 xcrawl Skill 的说明配置 API Key。安装和配置请遵循各 Skill 的官方文档。
注意事项
- 站内搜索优先:用
site:ithome.com 等限定权威来源,避免泛搜返回知乎
- 排除不可靠来源:搜索时加
-site:zhihu.com -site:weibo.com -site:toutiao.com 排除论坛和社交媒体
- 必须抓取原文:每条记录必须 web_fetch 原文,搜索snippet不能替代摘要
- 禁止复用历史数据:每次执行必须重新搜索,不得使用缓存或之前的搜索结果
- 禁止知乎/微博/今日头条来源:只收录权威新闻媒体和官方来源,确保可交叉印证
- 绝不放弃中文来源:web_search 中文结果不足时,必须执行步骤2B(web_fetch抓取中文站列表页),不得直接回退英文媒体
- 中文来源占比 ≥60%:英文来源只能作为补充,不超过40%
- 时间过滤:web_search 用
freshness:"week"
- 日期验证不可跳过:每条记录必须 YYYY-MM-DD 且在范围内
- 事实核查:重大事件2源交叉验证
- 宁缺毋滥:无法确认日期或事实的条目直接丢弃
- 必须有链接:文档/链接列不能为空,且必须是权威媒体
- 必须生成Excel:步骤5不能跳过
- 并行搜索:所有搜索并行执行
- 403处理:web_fetch 返回403时丢弃该条,不用snippet替代
- 质量自检:生成Excel前,对照「质量自检清单」逐项检查
- 摘要必须有数据:每条摘要必须含≥1个具体数值
- 来源必须具体:来源/发布机构必须具体到公司/部门名
- 列表页降级必执行:中文搜索结果不足时必须抓取列表页,不能跳过
- 多渠道搜索:每次搜索组必须覆盖不同媒体站点,不得全部集中在IT之家
- 交叉印证必执行:每个事件至少从2个不同渠道搜索确认,综合多渠道信息写入摘要
- 链接权威性优先:主链接选最权威来源(官方>通讯社>深度媒体>综合媒体>科技媒体),IT之家等科技媒体链接不应超过50%
- 印证来源独立域名:印证来源必须与主链接不同域名,同域名不算交叉印证