Install
openclaw skills install xueqiu-collector雪球帖子全量采集 Skill。采集任意雪球用户的全部帖子(含完整正文、图片下载、OCR识别), 自动做 V4 规则分析(帖子类型/投资相关性/情感/操作意图/主题标签/质量评分), 结果存入 SQLite 数据库并导出 JSON + Markdown 备份。 触发词:采集雪球、雪球帖子采集、爬取雪球、收集雪球、雪...
openclaw skills install xueqiu-collector本 Skill 可以采集任意雪球用户的全部帖子,包括:
| 依赖项 | 说明 |
|---|---|
playwright-cli (npx) | 浏览器自动化,用于页面采集 |
| Edge 浏览器 + 真实 Profile | 挂载登录态,避免触发验证码 |
| Python 3.10+ | 运行采集脚本 |
winocr(可选) | Windows 系统内置 OCR,识别帖子图片文字 |
| SQLite | 数据持久化,系统内置无需安装 |
# 0. 环境检测(首次使用必跑!)
py scripts/check_env.py
# 1. 首次运行(不传参数,自动进入配置向导)
py scripts/collect.py
# → 会引导输入昵称和 URL
# 2. 增量采集(推荐,直接传参跳过向导)
py scripts/collect.py --author "用户昵称" --url "https://xueqiu.com/u/7712999844"
# 2. 强制扫描列表找新帖
py scripts/collect.py --author "用户昵称" --url "https://xueqiu.com/u/7712999844" --refresh-list
# 3. 强制重采正文(不重爬列表)
py scripts/collect.py --author "用户昵称" --url "https://xueqiu.com/u/7712999844" --force-collect
# 4. 只采集最新10条
py scripts/collect.py --author "用户昵称" --url "https://xueqiu.com/u/7712999844" --force-collect --latest --limit 10
# 5. 批量规则分析(对已采集的帖子补做V4分析)
py scripts/analyze.py --db "path/to/db.db" --missing
用户说:"帮我采集 @随缘的人生体验 的全部雪球帖子"
步骤:
https://xueqiu.com/u/{UID} 格式获取)db/stock_analysis.db)data/xueqiu/{昵称}/)py scripts/collect.py --author "昵称" --url "URL" --db "db路径" --out-dir "输出路径"用户说:"同步一下雪球数据" / "雪球有新帖,更新一下"
步骤:
py scripts/collect.py --author "昵称" --url "URL" --refresh-list用户说:"有些帖子只有标题没有正文,帮我补全"
步骤:
py scripts/collect.py --author "昵称" --url "URL"(默认只采集缺正文的帖子)用户说:"帮我分析一下数据库里的帖子"
步骤:
py scripts/analyze.py --db "db路径" --missing(只分析未分析的)py scripts/analyze.py --db "db路径" --batch| 参数 | 说明 | 示例 |
|---|---|---|
--author | 用户昵称(用于数据目录隔离) | 随缘的人生体验 |
--url | 雪球主页 URL | https://xueqiu.com/u/7712999844 |
--db | SQLite 数据库路径 | db/stock_analysis.db |
--out-dir | 数据输出根目录 | data/xueqiu |
--npx | npx 可执行路径 | C:\Users\xxx\nodejs\npx.cmd |
--edge-profile | Edge Profile 路径 | C:\Users\xxx\AppData\Local\Microsoft\Edge\User Data\Default |
| 参数 | 默认值 | 说明 |
|---|---|---|
MIN_DELAY | 2.0 秒 | 最小请求间隔 |
MAX_DELAY | 5.0 秒 | 最大请求间隔 |
MAX_RETRIES | 3 | 最大重试次数 |
stop_on_no_new | 3 | 连续 N 页无新帖停止 |
data/xueqiu/{昵称}/
├── posts_full.json 全量 JSON(所有帖子,时间倒序)
├── posts_full.md 全量 Markdown
├── classified/ 按分类的 JSON 文件
│ ├── 腾讯控股.json
│ ├── 操作日记.json
│ └── ...
├── md/ 按分类的 Markdown 文件
│ ├── 腾讯控股.md
│ └── ...
└── images/ 帖子图片
├── 382580032_1.jpg
└── ...
| 字段 | 类型 | 说明 |
|---|---|---|
post_id | TEXT | 雪球帖子 ID |
author | TEXT | 作者昵称 |
author_id | TEXT | 作者 UID |
title | TEXT | 帖子标题 |
content | TEXT | 列表页摘要 |
full_content | TEXT | 完整正文(Markdown 格式) |
category | TEXT | 分类(腾讯控股/操作日记/宏观分析…) |
published_at | TEXT | 发帖日期(YYYY-MM-DD) |
url | TEXT | 帖子链接 |
like_count | INTEGER | 点赞数 |
comment_count | INTEGER | 评论数 |
repost_count | INTEGER | 转发数 |
read_count | TEXT | 阅读数(含"万"等单位) |
image_ocr_text | TEXT | 图片 OCR 识别内容 |
post_type | TEXT | 帖子类型(original/reply/error/empty) |
own_text | TEXT | 评论帖中用户自己的话 |
quote_text | TEXT | 评论帖引用的原文 |
reply_to_post_id | TEXT | 评论指向的原帖 ID |
investment_relevance | TEXT | 投资相关性(high/medium/low/none) |
sentiment | TEXT | 情感(看多/看空/中性) |
trade_intent | TEXT | 操作意图(买入/卖出/持有/观察/无) |
content_type | TEXT | 内容类型(交易记录/数据分析/深度分析/讨论交流…) |
quality_score | INTEGER | 质量评分(0-5) |
summary | TEXT | 规则摘要(前300字) |
topics | TEXT | 主题标签(JSON 数组) |
tags | TEXT | 提及股票(JSON 数组) |
word_count | INTEGER | 正文字数 |
logs/xueqiu_collect.log,可用 py read_log.py 监控winocr + pillow(pip install winocr pillow)references/category_keywords.json 中自定义股票/主题分类规则playwright-cli eval 只支持单行 JS,多行会导致序列化失败xueqiu_analyzer.py 已全部覆盖