Skill flagged — suspicious patterns detected

ClawHub Security flagged this skill as suspicious. Review the scan results before using.

全网数据探测虾

v1.0.0

全网数据探测虾 — 监控竞品官网或特定站点的页面变动,自动巡查并在关键内容变化时发送通知。 适用场景:竞品价格监控、法规更新监控、招聘信息监控、新闻舆情监控、技术文档更新监控。 触发关键词:监控 爬虫 网页变动 竞品监控 价格监控 法规更新 舆情监控 数据采集 网站监控 页面变化 自动抓取 web-data-mo...

0· 90·0 current·0 all-time
byRicky@tujinsama

Install

OpenClaw Prompt Flow

Install with OpenClaw

Best for remote or guided setup. Copy the exact prompt, then paste it into OpenClaw for tujinsama/web-data-monitor-claw.

Previewing Install & Setup.
Prompt PreviewInstall & Setup
Install the skill "全网数据探测虾" (tujinsama/web-data-monitor-claw) from ClawHub.
Skill page: https://clawhub.ai/tujinsama/web-data-monitor-claw
Keep the work scoped to this skill only.
After install, inspect the skill metadata and help me finish setup.
Use only the metadata you can verify from ClawHub; do not invent missing requirements.
Ask before making any broader environment changes.

Command Line

CLI Commands

Use the direct CLI path if you want to install manually and keep every step visible.

OpenClaw CLI

Canonical install target

openclaw skills install tujinsama/web-data-monitor-claw

ClawHub CLI

Package manager switcher

npx clawhub@latest install web-data-monitor-claw
Security Scan
VirusTotalVirusTotal
Suspicious
View report →
OpenClawOpenClaw
Suspicious
medium confidence
Purpose & Capability
技能名称/描述与脚本实现总体一致:抓取网页、建立快照、对比并归档。依赖 curl/jq/pup 与文本 diff 符合目的。唯一注意点:文档多次提及“发送通知(飞书/邮件/webhook)”,但脚本本身不实现通知发送,依赖外部下游“虾”协作;这一点在说明里有上下游协作表,算是部分实现分拆,但对非专家用户可能造成误解。
!
Instruction Scope
SKILL.md 和 references 明确包含反爬虫规避策略:UA 轮换、代理池、请求频率伪装、验证码识别/第三方打码服务、以及 cookie/Referer 伪装等。虽然这些策略在爬虫工具中常见,但它们用于规避目标站点的防护并可能支持访问受保护或受限内容,增加合规与滥用风险。另外,references 展示了带 Cookie 抓取的模板,而 README 同时声明“仅支持公开可访问的网页”——存在自相矛盾或边界不清的问题。
Install Mechanism
无安装规范(instruction-only + 包含脚本),不会在安装时从不受信任的 URL 下载或解压任意二进制。脚本依赖外部工具(curl/jq/pup/diff),这与用途相称。
Credentials
技能未声明必须的环境变量或凭据,脚本只可选使用 WEB_MONITOR_DATA_DIR 指定数据目录。references 提到代理配置与第三方验证码服务(需要凭据/付费),但这些凭据未在 requires.env 中声明;这本身不是直接泄露风险,但增加了部署时需要外部敏感配置的可能性,且没有说明如何安全管理。
Persistence & Privilege
不要求 always:true,也不修改系统或其它技能配置。脚本在用户主目录下创建 $HOME/.web-monitor 存储数据和日志—这是合理的本地持久化行为,用户应注意该目录包含抓取到的原始页面数据。
What to consider before installing
要点和建议: - 这个技能确实实现了网页快照、差异检测和本地归档,适合合法的公开网页监控。它同时包含明确的“反爬虫对抗”指南(代理池、UA 轮换、验证码打码等),这些手段容易违反目标网站服务条款或法律(特别是绕过访问控制或大规模抓取)。 - 警惕合规/法律风险:在部署前确认目标站点允许抓取(查看 robots.txt 与服务条款),并避免抓取需要登录或含有受限数据的页面。使用代理或打码服务会提高滥用风险与合规风险。 - 通知机制并未在脚本中实现(脚本仅保存 notify 字段),请确认告警/推送由哪些下游组件负责并审查那些组件的实现与权限。 - 部署时注意敏感配置:如果你计划使用代理服务或第三方验证码平台,会产生凭据/付费账号,应妥善管理这些凭据(不要把它们放在不安全的目录或公开日志中)。 - 若你想更放心:要求作者或发布者提供(1)通知推送的实现细节或下游组件代码,(2)是否/如何使用第三方验证码服务及其域名与凭据流向,以及(3)是否有速率限制与合规使用说明。有这些信息可降低不确定性并可能把判断改为“benign”。

Like a lobster shell, security has layers — review code before you run it.

latestvk976846760009xzs4dmabhtk7x858x65
90downloads
0stars
1versions
Updated 6d ago
v1.0.0
MIT-0

全网数据探测虾 (web-data-monitor-claw)

监控竞品官网或特定站点的页面变动,7×24 小时自动巡查,第一时间捕获关键变化。

核心工作流

步骤 1:接收监控任务

从用户输入中提取:

  • 目标网址(必填)
  • 监控频率(每小时/每天/每周,默认每天)
  • 监控内容(价格/标题/全文/特定 CSS 选择器)
  • 变动阈值(如价格变动 >5%)
  • 通知方式(飞书/邮件/webhook)

支持两种输入格式:

  1. 结构化:Excel/CSV 文件,含监控任务清单
  2. 自然语言:如"监控 XX 公司官网的产品价格,每天检查一次"

步骤 2:首次快照

使用 scripts/web-monitor.sh 执行首次抓取:

./scripts/web-monitor.sh add-task \
  --url "https://example.com/products" \
  --frequency "daily" \
  --selector ".price" \
  --notify "feishu"

./scripts/web-monitor.sh run-check --task-id "task-001"

首次抓取生成基准版本(Baseline),存储为 JSON 快照。

步骤 3:定期巡查

按设定频率自动访问目标网页,与基准版本对比,识别:

  • 文本变化(新增/删除/修改)
  • 数值变化(价格/数量/百分比)
  • 结构变化(新增/删除页面元素)

步骤 4:变动分析与通知

判断变动是否达到通知阈值:

  • 重要变动 → 立即推送飞书消息
  • 一般变动 → 汇总到日报/周报
  • 微小变动 → 仅记录日志

通知内容包含:变动前/变动后/变动幅度/原始链接。

步骤 5:数据归档

将抓取的原始数据归档至数据仓库,供其他数字员工使用(数据分析虾、报告生成虾等)。

关键设计原则

  • 原始采矿:抓取第一手原始数据,不做主观加工
  • 高频巡查:支持分钟级监控,确保信息实时性
  • 智能过滤:自动过滤广告、噪音、无关变动
  • 反爬虫对抗:模拟真实浏览器行为,避免被封禁

依赖工具

  • curljqpup(HTML 解析)、diff
  • 安装 pup:brew install pupgo install github.com/ericchiang/pup@latest

参考文件

  • 监控规则references/monitoring-rules.md — 不同类型网站的监控策略
  • 提取模板references/extraction-templates.md — 常见网站结构的数据提取模板
  • 反爬虫策略references/anti-detection.md — 应对网站反爬虫机制的策略库

与其他虾的协作

上下游虾名数据流向
下游data-cleaning-claw原始数据 → 清洗后提供给分析类员工
下游compliance-archive-claw监控到新法规时自动归档
下游cross-platform-messenger-claw变动通知推送到多个平台
下游auto-data-analysis-claw抓取的竞品数据用于分析

已知限制

  • 仅支持公开可访问的网页,无法监控需要登录的内容
  • 动态加载(JavaScript 渲染)的页面需使用浏览器模式(较慢)
  • 部分网站有严格的反爬虫机制,可能被封禁 IP
  • 不支持监控移动 App 内的内容

Comments

Loading comments...