Skill flagged — suspicious patterns detected
ClawHub Security flagged this skill as suspicious. Review the scan results before using.
TinyScraper
v1.0.2简单静态网站镜像爬虫。给定 URL 下载整个域名下的 HTML、JS、CSS 和静态资源到本地,支持离线浏览。
⭐ 0· 61·0 current·0 all-time
by林捷@alukardo
MIT-0
Download zip
LicenseMIT-0 · Free to use, modify, and redistribute. No attribution required.
Security Scan
OpenClaw
Benign
medium confidencePurpose & Capability
名称与描述(镜像静态网站)与包含的代码和测试一致:库使用 urllib/html.parser 等标准库抓取并重写静态资源、将文件写入本地镜像目录。没有请求与目的无关的外部凭据或二进制依赖。
Instruction Scope
SKILL.md 指示的行为(下载域内 HTML/静态资源、重写同域链接、提供 --dry-run)与 crawler.py 中的解析与重写逻辑一致。需要注意:SKILL.md / SPEC.md 明确写明 robots.txt 会被忽略(伦理/合法性注意),并且默认 MAX_DEPTH=-1(无限深度),可能导致大规模抓取。SKILL.md 中示例路径使用 tmp/mirrors,但实际路径会被解析到 OPENCLAW_WORKSPACE 下(见下文),这点对用户期望需要明确。
Install Mechanism
无安装规范(instruction-only / 包含纯 Python 源文件),不从外部 URL 下载或执行不明安装脚本,风险较低。源码为纯标准库实现,没有绑定到第三方包管理器或远程二进制下载。
Credentials
不要求任何显式环境变量或凭据。代码会读取可选环境变量 OPENCLAW_WORKSPACE(有默认值)并基于 conf/.tinyscraper.conf 配置 DELAY、MAX_DEPTH、TIMEOUT、MIRRORS_DIR、USER_AGENT。这些是与功能相关且比例合理,但用户应知悉输出目录默认在 OPENCLAW_WORKSPACE 下(~/.openclaw/workspace/tmp/mirrors/...),不是当前工作目录。
Persistence & Privilege
技能没有设置 always: true,也不修改其他技能或系统范围配置。它会在磁盘上创建镜像文件与日志(在 MIRRORS_DIR);这是工具正常行为且范围有限。
Assessment
TinyScraper 看起来是一个自包含的本地静态网站镜像工具:
- 它不会要求 API keys 或外部凭证;网络操作仅用于抓取目标网站。
- 注意它默认忽略 robots.txt 且 MAX_DEPTH 默认为 -1(无限深度),可能导致大规模或不合规抓取;在使用前建议在 conf/.tinyscraper.conf 中设置合适的 DELAY 与 MAX_DEPTH 并先运行 --dry-run。
- 默认保存位置基于 OPENCLAW_WORKSPACE(默认为 ~/.openclaw/workspace/tmp/mirrors),如果你期望输出到当前目录请修改配置或环境变量。
- 如果担心安全或隐藏行为,可在受控环境(沙箱或容器)中先运行 test_crawler.py 和一个小型目标站点的 dry-run,并审阅完整 crawler.py(提供的文件在示例中被截断,若你需要更高置信度,要求完整未截断源码以便进一步审查)。Like a lobster shell, security has layers — review code before you run it.
latestvk9795gtq0tbn989pdea8x1cqkn844d75
License
MIT-0
Free to use, modify, and redistribute. No attribution required.
