Install
openclaw skills install silas-wechat-article-search微信公众号文章搜索与解析。搜狗微信+新榜双源搜索,Python脚本解析全文(零Node依赖),Serper转载兜底。
openclaw skills install silas-wechat-article-search搜索微信公众号文章 → 解析全文 → 评分 → 入库知识库。
curl -s "https://weixin.sogou.com/weixin?type=2&query=关键词" \
-H "User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36"
用 Python 正则提取标题和链接,返回搜狗中间链接列表。
curl -s "https://google.serper.dev/search" \
-H "X-API-KEY: $SERPER_API_KEY" \
-d '{"q":"site:newrank.cn 关键词","num":10}'
当微信原文无法解析时,搜索转载版:
curl -s "https://google.serper.dev/search" \
-H "X-API-KEY: $SERPER_API_KEY" \
-d '{"q":"文章标题","num":5}'
优先选新浪/搜狐/网易等全文转载。
核心脚本:scripts/parse_article.py
pip3 install requests beautifulsoup4
python3 scripts/parse_article.py "https://mp.weixin.qq.com/s/xxxxx"
python3 scripts/parse_article.py "URL" --save
python3 scripts/parse_article.py "URL" --save --output article.json
{
"title": "文章标题",
"author": "公众号名称",
"publish_time": "2026-04-18",
"content": "正文全文...",
"word_count": 5594,
"images_count": 21,
"images": ["url1", "url2", ...],
"url": "原始链接",
"parsed_at": "2026-04-18 22:00:00"
}
rich_media_content 提取正文data-src 属性(微信防盗链图)选词(从 web-keywords.json)→ 搜狗搜索 → 新榜补充 → 合并去重
对每篇目标文章:
a. 先用 Python 脚本解析微信原文
b. 失败 → Serper 搜转载 → web_fetch 抓全文
c. 提取:标题、作者、正文、图片
5 维度评分(同 web-search 技能标准):
- 数据密度 30%、实操性 25%、时效性 20%、相关性 15%、来源权威 10%
- < 5.0 不入库
- ≥ 8.5 通知管理员
a. feishu_search_doc_wiki 搜索知识库标题
b. memory/collect-log.json 查历史
c. URL + 标题去重
a. 读 wiki-directory-manager 技能匹配目录
b. feishu_create_doc 创建文档(标题不带评分)
c. 正文格式:
> 来源:URL
> 发布日期:YYYY-MM-DD
> 采集日期:YYYY-MM-DD
> 评分:X.X 🟢/🟡/🟠/🔴
正文内容...
d. 有信息量图片 → 保存本地 → feishu_doc_media insert
e. 写多维表格索引(目录必须和实际一致)
/tmp/openclaw/images/data-src 是真实地址,但直接访问需要 RefererCron:每小时第22分钟(ID: de3ee2d3) 每次 1 个关键词,搜索 → 解析 → 评分 → 入库