微信公众号文章抓取
v1.1.1在搜狗微信搜索指定关键词,抓取相关文章(标题、摘要、发布日期、来源公众号),生成PDF报告。触发场景:用户要求"搜索微信文章 关键字 数量
⭐ 0· 213·3 current·3 all-time
MIT-0
Download zip
LicenseMIT-0 · Free to use, modify, and redistribute. No attribution required.
Security Scan
OpenClaw
Benign
high confidencePurpose & Capability
技能名与描述(在搜狗微信搜索抓取文章并生成 PDF 报告)与包含的三份脚本完全对齐:wechat_search.py 抓取并生成 articles.json,要求人工/模型生成摘要后产生 articles_new.json,wechat_fetch.py 将文章保存为 PDF,wechat_pdf.py 生成最终报告。未请求与任务不相关的凭据或二进制。
Instruction Scope
SKILL.md 明确要求在 ~/.openclaw/workspace 下运行脚本并且“摘要必须在聊天窗口用当前会话模型生成”。这会使文章正文被送入当前会话模型(可能发送到外部模型提供者),并且脚本在渲染页面时会加载页面上的第三方资源(图片、脚本、跟踪器)。这些行为与抓取/摘要目的相关,但会产生隐私/数据泄露和外部网络请求的副作用,应被用户知晓。
Install Mechanism
技能为 instruction-only(没有自动 install spec),但 README 建议使用 pip install playwright requests 与 playwright install chromium。这是合理且与脚本需求一致;没有看到从可疑 URL 下载或写入非标准位置的安装步骤。
Credentials
技能不要求任何环境变量、密钥或外部凭据,脚本只读写 ~/.openclaw/workspace 下的文件(articles.json / articles_new.json、wechat_pages、关键词_行业动态.pdf)。唯一值得注意的是:将文章正文提交给 LLM 生成摘要会把抓取到的内容暴露给模型提供方(平台默认模型调用),这是功能所需但可能影响隐私。
Persistence & Privilege
flags 表示 always:false,技能不会强制常驻或修改其它技能配置。脚本仅在用户显式运行时执行,不请求提升权限或改写系统级设置。
Assessment
该技能在功能与实现上是一致的,但在安装与使用前请考虑:1) 法律/合规与网站使用条款——批量抓取微信公众号文章可能违反目标站点或内容方的使用条款或版权;2) 隐私/数据外泄——摘要步骤要求用“当前会话模型”生成,会把文章正文发送给模型提供方(如果你使用的是远端模型,这就是一次数据传输);3) CAPTCHA 与反爬——脚本使用 Playwright 并将浏览器设为可见(headless=False)并绕开自动化检测,可能需要人工处理验证码;4) 运行环境与依赖——按说明安装 playwright 和浏览器(playwright install chromium);确认 ~/.openclaw/workspace 是你期望的工作目录,避免意外覆盖或泄露文件;5) 速率限制与安全——脚本在抓取时会加载页面资源(第三方追踪器等),如需更严格的隔离可在受控网络/容器中运行或开启更严格的请求拦截。建议在将文章文本提交给 LLM 前人工审阅 articles.json/articles_new.json,避免敏感内容外泄。Like a lobster shell, security has layers — review code before you run it.
latestvk97ar9nhpj0fh2f9mx6sehx1rs831gq7
License
MIT-0
Free to use, modify, and redistribute. No attribution required.
