Install
openclaw skills install web-scraping-tool-selection-strategy如何选择合适的网页抓取工具进行数据采集。当用户提到网页抓取、数据采集、爬虫、自动化测试、浏览器自动化、网站监控、竞品分析、价格监控、评论抓取、社交媒体数据分析、电商数据采集、小红书/知乎/京东/淘宝/1688抓取、结构化数据提取、反爬绕过、浏览器复用、API抓取、实时数据监控等场景时使用此技能。包含opencli...
openclaw skills install web-scraping-tool-selection-strategy建立高效的网页数据采集策略,通过合理选择工具最大化抓取成功率和数据质量。
优先使用opencli进行有适配器的平台抓取
opencli <platform> <action> --limit <number> -f jsonopencli xiaohongshu search "关键词" --limit 3 -f json使用playwright-cli作为兜底方案
playwright-cli goto "<URL>"playwright-cli goto "https://item.jd.com/44541018110.html#comment"根据平台特性选择工具
验证工具连通性和状态
❌ 盲目使用单一工具 → 无法适应不同网站的反爬机制和结构差异 → ✅ 根据平台特性选择合适工具 ❌ 忽略已登录浏览器状态 → 错过登录后数据和增加登录验证步骤 → ✅ 优先复用已登录Chrome标签页 ❌ 不区分API级和浏览器级抓取 → 效率低下或数据不准确 → ✅ 结构化数据用opencli,复杂页面用playwright-cli ❌ 缺乏工具状态检查 → 演示时出现意外故障 → ✅ 演示前进行最小检查验证
# opencli小红书搜索示例
opencli xiaohongshu search "宠物猫" --limit 3 -f json
# opencli知乎热榜示例
opencli zhihu hot --limit 5 -f json
# playwright-cli京东评论抓取示例
playwright-cli goto "https://item.jd.com/44541018110.html#comment"
# playwright-cli 1688供应链抓取示例
playwright-cli goto "https://s.1688.com/selloffer/offer_search.htm?keywords=静脉曲张袜"
scripts/web_scraping_validator — 工具连通性验证脚本references/platform_mapping_table — 平台与工具对应关系参考表