微信公众号阅读器

v1.1.0

提取微信公众号文章内容,支持任意公众号文章链接的内容抓取和结构化输出。

1· 637· 3 versions· 6 current· 7 all-time· Updated 6h ago· MIT-0

Install

openclaw skills install weixin-reader

微信公众号阅读器

提取微信公众号文章内容,支持任意公众号文章链接的内容抓取。

使用方法

直接发送微信公众号文章链接即可:

功能

  • 自动渲染 JavaScript 动态内容
  • 提取标题、作者、公众号名称、发布时间、正文内容
  • 输出干净的 Markdown 格式
  • SSRF 防护:DNS 解析验证,防止访问内网地址

依赖

  • Python 3.8+
  • Playwright
  • playwright-stealth(反爬增强,可选)
  • dnspython(DNS 解析安全校验)

安装依赖:

cd ~/.openclaw/workspace/skills/weixin-reader
pip install -r requirements.txt
playwright install chromium

安全说明

SSRF 防护

  • 禁止访问 localhost、127.0.0.1 等本地地址
  • 禁止访问 10.x.x.x、172.16-31.x.x、192.168.x.x 等私有网段
  • DNS 解析检查:验证域名解析后的 IP 不是内网地址(防止 DNS 重绑定攻击)

使用限制

  • 仅支持提取公开文章内容
  • 请遵守目标网站的服务条款
  • 不建议用于高频批量抓取

文件说明

  • extract.py - 主提取脚本(推荐,标准模式)
  • extract_stealth.py - 反爬增强模式(可选,使用 playwright-stealth,可能违反某些网站 ToS)
  • extract_generic.py - 通用网页提取

更新日志

v1.1.0

  • 结构化数据输出:返回 JSON 格式,包含 metadata、content、stats 三个部分
  • 新增统计信息:字数、段落数、图片数、预估阅读时间
  • 增强元数据:提取时间戳、文章描述、HTML 内容
  • 图片信息丰富:返回图片 URL 和 alt 文本

v1.0.1

  • 增强 SSRF 防护:添加 DNS 解析验证
  • 补充完整依赖:playwright-stealth, dnspython
  • 完善安全说明文档

Version tags

latestvk972msbejdsfpkvdejz28aq3b182bmf9