微信公众号文章抓取
在搜狗微信搜索指定关键词,抓取相关文章(标题、摘要、发布日期、来源公众号),生成PDF报告。触发场景:用户要求"搜索微信文章 关键字 数量
MIT-0 · Free to use, modify, and redistribute. No attribution required.
⭐ 0 · 30 · 1 current installs · 1 all-time installs
MIT-0
Security Scan
OpenClaw
Benign
high confidencePurpose & Capability
技能名与描述(在搜狗微信搜索抓取文章并生成 PDF 报告)与包含的三份脚本完全对齐:wechat_search.py 抓取并生成 articles.json,要求人工/模型生成摘要后产生 articles_new.json,wechat_fetch.py 将文章保存为 PDF,wechat_pdf.py 生成最终报告。未请求与任务不相关的凭据或二进制。
Instruction Scope
SKILL.md 明确要求在 ~/.openclaw/workspace 下运行脚本并且“摘要必须在聊天窗口用当前会话模型生成”。这会使文章正文被送入当前会话模型(可能发送到外部模型提供者),并且脚本在渲染页面时会加载页面上的第三方资源(图片、脚本、跟踪器)。这些行为与抓取/摘要目的相关,但会产生隐私/数据泄露和外部网络请求的副作用,应被用户知晓。
Install Mechanism
技能为 instruction-only(没有自动 install spec),但 README 建议使用 pip install playwright requests 与 playwright install chromium。这是合理且与脚本需求一致;没有看到从可疑 URL 下载或写入非标准位置的安装步骤。
Credentials
技能不要求任何环境变量、密钥或外部凭据,脚本只读写 ~/.openclaw/workspace 下的文件(articles.json / articles_new.json、wechat_pages、关键词_行业动态.pdf)。唯一值得注意的是:将文章正文提交给 LLM 生成摘要会把抓取到的内容暴露给模型提供方(平台默认模型调用),这是功能所需但可能影响隐私。
Persistence & Privilege
flags 表示 always:false,技能不会强制常驻或修改其它技能配置。脚本仅在用户显式运行时执行,不请求提升权限或改写系统级设置。
Assessment
该技能在功能与实现上是一致的,但在安装与使用前请考虑:1) 法律/合规与网站使用条款——批量抓取微信公众号文章可能违反目标站点或内容方的使用条款或版权;2) 隐私/数据外泄——摘要步骤要求用“当前会话模型”生成,会把文章正文发送给模型提供方(如果你使用的是远端模型,这就是一次数据传输);3) CAPTCHA 与反爬——脚本使用 Playwright 并将浏览器设为可见(headless=False)并绕开自动化检测,可能需要人工处理验证码;4) 运行环境与依赖——按说明安装 playwright 和浏览器(playwright install chromium);确认 ~/.openclaw/workspace 是你期望的工作目录,避免意外覆盖或泄露文件;5) 速率限制与安全——脚本在抓取时会加载页面资源(第三方追踪器等),如需更严格的隔离可在受控网络/容器中运行或开启更严格的请求拦截。建议在将文章文本提交给 LLM 前人工审阅 articles.json/articles_new.json,避免敏感内容外泄。Like a lobster shell, security has layers — review code before you run it.
Current versionv1.1.1
Download ziplatest
License
MIT-0
Free to use, modify, and redistribute. No attribution required.
SKILL.md
微信公众号文章抓取
功能概述
通过搜狗微信搜索指定关键词,抓取最新文章,生成带本地PDF的行业报告。
触发方式
用户说:
- "搜索微信文章 脑机接口"
- "搜索微信文章 人工智能 5"
- "搜索微信文章 光伏 10"
完整工作流程
第1步:搜索文章
cd ~/.openclaw/workspace
python3 ~/.openclaw/workspace/skills/wechat-article-scraper/scripts/wechat_search.py <关键词> [数量]
- 输出:
articles.json - 包含字段:title, text, url, date, source
- 默认搜索90天内文章
第2步:生成摘要(聊天窗口)
⚠️ 重要:summary必须在聊天窗口用当前会话模型生成!
- 读取
articles.json中的文章 - 用当前模型逐篇生成100-200字摘要
- 写入
articles_new.json(包含title, text, url, date, source, summary字段)
第3步:抓取原文PDF
cd ~/.openclaw/workspace
python3 ~/.openclaw/workspace/skills/wechat-article-scraper/scripts/wechat_fetch.py <关键词>
- 输出:
wechat_pages/目录下的PDF文件 - 每篇文章保存为独立的PDF,保留完整样式
第4步:生成行业报告
cd ~/.openclaw/workspace
python3 ~/.openclaw/workspace/skills/wechat-article-scraper/scripts/wechat_pdf.py <关键词>
- 输出:
<关键词>_行业动态.pdf
报告包含:
- 标题、日期
- 行业动态精选(每篇文章):
- 文章标题
- 来源公众号 | 发布日期
- 摘要(LLM生成,100-200字)
- 链接1:微信原文(有时效限制) → 原始微信文章链接
- 链接2:点我看原文(PDF) → 本地PDF文件
脚本说明
scripts/wechat_search.py
- 输入:关键词、数量(默认10)
- 输出:
articles.json - 功能:使用 Playwright 访问搜狗微信搜索,解析搜索结果并抓取文章正文
scripts/wechat_fetch.py
- 输入:关键词
- 输出:
wechat_pages/*.pdf - 功能:读取
articles_new.json,抓取每篇文章原文保存为PDF
scripts/wechat_pdf.py
- 输入:关键词
- 输出:
<关键词>_行业动态.pdf - 功能:读取
articles_new.json,生成带双链接的行业报告PDF
依赖
# 安装 Python 依赖
pip install playwright requests
# 安装 Playwright 浏览器
playwright install chromium
注意事项
- 摘要必须用LLM生成 - 不能在pdf.py中自动生成
- 链接格式 - 微信原文(有时效限制)+ 点我看原文(PDF)
- 日期过滤 - 目前默认搜索90天内文章,暂无14天过滤选项
Files
4 totalSelect a file
Select a file to preview.
Comments
Loading comments…
