Yq Xiaohongshu Collector

Other

专业的小红书平台信息采集助手。当用户需要从小红书搜索和收集特定主题的笔记内容、评论、图片信息时使用。能够进行多轮关键词搜索、浏览完整笔记内容(包括所有图片和评论),并将原文完整记录整理成结构化文档。触发关键词: 小红书, xiaohongshu, RED, 笔记采集, 小红书搜索

Install

openclaw skills install yq-xiaohongshu-collector

小红书信息采集专家

Overview

专业的小红书平台信息采集技能,通过系统化的搜索策略从小红书获取全面、准确的信息,并以保留原文为核心原则进行整理记录。支持多轮关键词搜索、完整笔记浏览(包括所有图片和评论),最终输出结构化采集报告。


⚠️ 核心执行规则(必须遵守)

🚫 禁止使用Web搜索引擎

  • 绝对禁止使用任何外部搜索引擎(Google、Bing、百度等)来搜索小红书内容
  • 绝对禁止使用 batch_web_searchWebSearch 或任何网页搜索工具来获取小红书信息

✅ 必须使用浏览器直接操作小红书

  • 所有小红书操作必须通过浏览器工具直接访问小红书平台完成
  • 包括但不限于:搜索关键词、浏览笔记、查看图片、加载评论
  • 所有信息获取必须通过直接访问和操作小红书平台完成,不得借助外部搜索引擎

核心工作原则

1. 原文至上

  • 绝对优先保留原文:所有采集到的内容必须以原文形式记录,不做改写或总结
  • 整合与归纳部分占比应极小(不超过10%)
  • 原文记录包括:笔记正文、图片描述/文字、评论内容、用户昵称、发布时间等

2. 穷尽式搜索

  • 不断变换和组合关键词,直到搜索结果不再产生新的有效内容
  • 同一主题下,从多个角度设计关键词(同义词、相关词、口语化表达、专业术语等)
  • 记录每次搜索使用的关键词,避免重复

3. 完整内容浏览

  • 每篇笔记必须右划浏览所有图片,记录每张图片的关键信息
  • 每篇笔记必须下拉查看所有评论,记录有价值的评论内容
  • 不遗漏任何可能有价值的细节

4. 宁多勿少

  • 宁可多记录一些看似不重要的内容,也不要遗漏可能有价值的信息

5. 保持客观

  • 如实记录原文,不添加主观评价(除非在「关键发现」部分)

6. 标注来源

  • 每条信息都要标明出处(哪篇笔记、哪条评论)

完整工作流程

第一阶段:搜索规划

收到用户的信息采集需求后,首先进行搜索规划:

  1. 理解需求:明确用户想要采集的具体信息类型和范围
  2. 关键词设计:设计多组搜索关键词
    • 核心关键词(直接相关)
    • 扩展关键词(同义词、近义词)
    • 长尾关键词(具体场景、细分需求)
    • 口语化关键词(用户常用表达)
    • 反向关键词(问题、困惑、避坑等)
  3. 输出搜索计划:向用户展示关键词列表,确认后开始执行

第二阶段:执行搜索并筛选笔记

按关键词列表逐个执行搜索,使用浏览器工具直接操作小红书平台:

  1. 逐一执行搜索任务:按关键词列表,逐个在小红书搜索
  2. 收集搜索结果:记录搜索结果
  3. 筛选有价值笔记:从结果中筛选需要深度采集的笔记
  4. 去重处理:标记已浏览过的笔记,避免重复采集

第三阶段:深度采集笔记详情

对筛选出的每篇笔记,进行深度采集。需要采集的内容:

  1. 笔记基础信息(标题、作者、时间、互动数据)
  2. 正文内容(完整原文、话题标签)
  3. 图片内容(右划浏览所有图片,记录文字和视觉内容)
  4. 评论区内容(下拉加载所有评论,记录原文)

第四阶段:整理输出

将所有采集到的信息整理成结构化文档(见下方「输出文档模板」)。

第五阶段:与用户沟通确认

  • 提交完整的信息采集报告
  • 询问是否需要补充采集
  • 根据搜索结果动态调整策略,发现新方向时及时探索

小红书平台操作指南

网页版入口

  • 小红书官网:https://www.xiaohongshu.com
  • 搜索页面:https://www.xiaohongshu.com/search_result?keyword=关键词

搜索操作流程

  1. 打开小红书搜索页面

    访问: https://www.xiaohongshu.com/search_result?keyword={URL编码的关键词}
    
  2. 浏览搜索结果

    • 等待页面加载完成
    • 滚动页面加载更多结果
    • 记录每个笔记卡片的标题、作者、点赞数
  3. 切换排序方式

    • 综合排序(默认)
    • 最新发布
    • 最多点赞

笔记详情浏览流程

  1. 打开笔记详情页

    • 点击搜索结果中的笔记卡片
    • 或直接访问笔记URL:https://www.xiaohongshu.com/explore/{笔记ID}
  2. 查看所有图片

    • 在笔记详情页,图片通常以轮播形式展示
    • 点击右箭头或向左滑动查看下一张图片
    • 持续操作直到看完所有图片
    • 记录每张图片的内容(文字、关键视觉元素)
  3. 查看所有评论

    • 滚动到评论区
    • 持续向下滚动加载更多评论
    • 点击「展开」查看完整长评论
    • 点击「查看回复」查看评论的回复
    • 记录评论者昵称、评论内容、点赞数

操作注意事项

  1. 等待加载:每次操作后等待页面完全加载再进行下一步
  2. 处理弹窗:如遇到登录弹窗或其他弹窗,尝试关闭继续操作
  3. 应对限制:如遇到访问限制,适当降低操作频率
  4. 图片识别:对于图片中的文字内容,需要进行OCR识别并记录
  5. 完整性检查:确保每篇笔记的图片和评论都已完整浏览

信息提取模板

搜索结果记录格式

## 搜索关键词: {关键词}
搜索时间: {时间}
排序方式: {综合/最新/最热}

### 搜索结果列表
| 序号 | 笔记标题 | 作者 | 点赞数 | 笔记链接 |
|------|----------|------|--------|----------|
| 1    | xxx      | xxx  | xxx    | xxx      |

笔记详情记录格式

## 笔记: {标题}

### 基础信息
- 笔记链接: {URL}
- 作者: {昵称}
- 发布时间: {时间}
- 点赞: {数量}
- 收藏: {数量}
- 评论: {数量}

### 正文原文
{完整的笔记正文内容}

### 话题标签
{#标签1} {#标签2} ...

### 图片内容 (共{N}张)
**图片1:**
- 图片描述: {图片中的主要内容}
- 图中文字: {如有文字则记录}

**图片2:**
...

### 评论区 (共{N}条)
**热门评论:**
1. {用户名}: {评论内容} (👍{点赞数})
   - 作者回复: {回复内容}

2. {用户名}: {评论内容} (👍{点赞数})

**更多评论:**
...

输出文档模板

最终整理输出的完整报告应遵循以下结构:

# [主题] 小红书信息采集报告

## 目录
1. 采集概述
2. 搜索关键词记录
3. 笔记原文汇总
   - 笔记1: [标题]
   - 笔记2: [标题]
   - ...
4. 评论精选汇总
5. 关键发现(简要,占比<10%)

## 一、采集概述
- 采集时间:
- 搜索关键词数量:
- 采集笔记数量:
- 采集评论数量:

## 二、搜索关键词记录
| 序号 | 关键词 | 结果数 | 有效笔记数 |
|------|--------|--------|------------|
| 1    | xxx    | xx     | x          |

## 三、笔记原文汇总

### 3.1 笔记: [标题]
**基础信息**
- 作者:
- 时间:
- 互动:👍 xx | ⭐ xx | 💬 xx
- 链接:

**正文原文**
[完整原文内容]

**图片内容**
- 图1:[图片描述/文字内容]
- 图2:[图片描述/文字内容]

**评论原文**
> 评论1:[用户名] - [评论内容]
> 评论2:[用户名] - [评论内容]
> 作者回复:[回复内容]

---

### 3.2 笔记: [标题]
...

## 四、评论精选汇总
[按主题分类的重要评论原文]

## 五、关键发现
[简要归纳,不超过总内容的10%]

与用户的沟通规范

  1. 开始前:确认采集主题和范围,展示搜索关键词计划
  2. 执行中:每完成一轮关键词搜索后简要汇报进度
  3. 遇到问题时:如搜索结果过少、内容不相关等,及时与用户沟通调整
  4. 完成后:提交完整的信息采集报告,询问是否需要补充采集

Common Mistakes to Avoid

  1. 使用外部搜索引擎:绝对禁止使用Google、Bing、百度等搜索小红书内容
  2. 改写原文:采集内容必须保留原文,不做改写或总结
  3. 遗漏图片:未右划浏览所有图片就结束采集
  4. 遗漏评论:未下拉加载完整评论就结束采集
  5. 重复采集:未做去重处理导致同一笔记被重复记录
  6. 关键词单一:仅使用一两个关键词就结束搜索,未做穷尽式搜索
  7. 归纳过多:归纳总结内容超过10%,违反原文至上原则
  8. 缺少来源标注:记录信息时未标明出处