Install
openclaw skills install wechat-article-collector微信公众号文章批量采集工具。通过 Browser Harness 连接用户已登录的微信公众号后台,自动提取文章列表、去重、下载全文并保存到本地知识库。适用于个人公众号内容备份、知识库构建、文章管理等场景。
openclaw skills install wechat-article-collector通过 Browser Harness 自动采集微信公众号文章,支持去重、全文下载、本地存储。
Browser Harness 已安装(必需依赖)
~/.openclaw/workspace/browser-harnessbrowser-harness(已在 PATH)cd ~/.openclaw/workspace
git clone https://github.com/browser-use/browser-harness
cd browser-harness
uv tool install -e .
browser-harness --setup
微信公众号后台已登录
https://mp.weixin.qq.comcd ~/.openclaw/workspace/skills/wechat-article-collector
python3 scripts/collect_articles.py
脚本会自动:
~/.openclaw/workspace/knowledge/wechat/gh_<公众号ID>/python3 scripts/extract_article_list.py
输出:/tmp/all_articles.json
python3 scripts/download_new_articles.py
读取 /tmp/all_articles.json,对比本地知识库,下载新文章。
编辑 config.json 自定义设置:
{
"save_dir": "~/.openclaw/workspace/knowledge/wechat/gh_511119f160d8",
"mp_url": "https://mp.weixin.qq.com/cgi-bin/appmsgcopyright?action=orignal&type=1&token=YOUR_TOKEN",
"sleep_between_downloads": 1.5
}
wechat-article-collector/
├── SKILL.md # 本文件
├── config.json # 配置文件
├── scripts/
│ ├── collect_articles.py # 一键采集脚本
│ ├── extract_article_list.py # 提取文章列表
│ ├── download_new_articles.py # 下载新文章
│ └── utils.py # 工具函数
└── README.md # 详细文档
每篇文章保存为独立的 Markdown 文件:
YYYY-MM-DD_文章标题.md
文件内容:
# 文章标题
**发布日期**: YYYY-MM-DD
**原文链接**: http://mp.weixin.qq.com/s/xxxxx
---
文章正文内容...
症状:daemon alive — run browser-harness --setup to attach
解决:
browser-harness --doctor
browser-harness --setup
症状:Total: 0 articles
原因:未登录或未进入原创文章页面
解决:
https://mp.weixin.qq.com症状:❌ 提取失败 (len=0)
原因:页面加载慢或选择器不匹配
解决:
time.sleep() 等待时间#js_content 或 .rich_media_contentpython3 scripts/collect_articles.py --save-dir ~/Documents/公众号备份
python3 scripts/extract_article_list.py --output /tmp/my_articles.json
python3 scripts/collect_articles.py --account-id gh_abc123def456
基于 Browser Harness 的浏览器自动化能力,本 skill 可扩展到更多场景:
config.json 中的 profilesscripts/utils.py 中的提取函数scripts/ 目录下创建新脚本详见 USAGE.md 中的自定义配置教程。
修改 config.json 中的 mp_url 和 save_dir,可采集多个公众号。
添加 cron 任务:
# 每天凌晨 2 点采集
0 2 * * * cd ~/.openclaw/workspace/skills/wechat-article-collector && python3 scripts/collect_articles.py
在 scripts/utils.py 中添加转换函数:
def convert_to_pdf(md_file):
# 使用 pandoc 或其他工具转换
pass
MIT License - 自由使用、修改、分发
欢迎提交 Issue 和 Pull Request!
作者: ZHAO
版本: 1.0.0
更新日期: 2026-04-22