Skill flagged — suspicious patterns detected

ClawHub Security flagged this skill as suspicious. Review the scan results before using.

Content Catcher

v4.0.1

虾抓抓(xia-zhua-zhua) v4.0 - 超强内容抓取技能 支持:Markdown/PDF/多模态提取/结构化抽取/翻译/视频下载 触发词:抓取网页、网页转Markdown、内容抓取、虾抓抓、视频下载

0· 172· 9 versions· 1 current· 1 all-time· Updated 4d ago· MIT-0

虾抓抓 v4.0 - 超强内容抓取技能

原名:xia-zhua-zhua,又称Content Catcher


升级亮点 (v4.0)

新功能说明
PDF导出直接导出为PDF
多模态提取图片/音频/视频资源
结构化抽取表格/列表/卡片智能识别
增量监测页面更新自动提醒
翻译集成抓取后自动翻译
深度渲染完整JS动态内容

核心能力

1. 网页内容抓取

模式命令说明
标准模式node markdown-clip.js <url>CSS选择器
Smart模式node markdown-clip.js <url> --smartReadability AI
分析模式node markdown-clip.js <url> --analyze摘要+关键词

2. 视频下载

命令说明
python video_catcher_pro.py ytdlp <url>yt-dlp下载
python video_catcher_pro.py m3u8 <url>M3U8下载

v4.0 新增功能

多模态提取

# 提取图片资源
node content-extractor.js <url> --images

# 提取所有媒体
node content-extractor.js <url> --media

PDF导出

# 导出为PDF
node content-extractor.js <url> --pdf

# Markdown + PDF双导出
node content-extractor.js <url> --both

结构化抽取

# 智能识别表格
node content-extractor.js <url> --tables

# 识别列表数据
node content-extractor.js <url> --lists

增量监测

# 监测页面更新
node content-watcher.js <url> --watch

# 设置更新提醒
node content-watcher.js <url> --watch --notify

翻译功能

# 翻译为英文
node content-extractor.js <url> --translate en

# 翻译为日文
node content-extractor.js <url> --translate jp

技术架构

┌─────────────────────────────────────────────────────────┐
│              Content Catcher v4.0                      │
├─────────────────────────────────────────────────────────┤
│                                                         │
│  ┌─────────────┐  ┌─────────────┐  ┌─────────────┐    │
│  │  Playwright  │  │   Turndown   │  │   yt-dlp    │    │
│  │  (渲染)      │  │ (Markdown)  │  │  (视频)     │    │
│  └──────┬──────┘  └──────┬──────┘  └─────────────┘    │
│         │                 │                            │
│  ┌──────▼──────┐  ┌──────▼──────┐                     │
│  │ 多模态提取   │  │  结构化    │                     │
│  │ 图片/音频   │  │  表格/列表  │                     │
│  └─────────────┘  └─────────────┘                     │
│         │                                                    │
│  ┌──────▼──────┐                                        │
│  │  输出格式   │                                        │
│  │ Markdown   │                                        │
│  │ PDF        │                                        │
│  │ JSON       │                                        │
│  └─────────────┘                                        │
└─────────────────────────────────────────────────────────┘

升级对比

功能v2.xv3.xv4.x
Markdown
Smart模式
分析
视频下载-
PDF导出--
多模态--
结构化--
增量监测--
翻译--

依赖工具

工具状态用途
Node.js运行环境
Playwright页面渲染
TurndownHTML→Markdown
Python分析/翻译
yt-dlp视频下载
weasyprintPDF导出
googletrans翻译(可选)

使用示例

基础抓取

node xia-zhua-zhua/markdown-clip.js https://example.com --smart

多模态+PDF

node content-extractor.js https://example.com --media --pdf

视频下载

python video-catcher/video_catcher_pro.py ytdlp https://b.com/video

文件结构

content-catcher/
├── SKILL.md                    # 本文档
├── xia-zhua-zhua/            # 虾抓抓模块
│   ├── markdown-clip.js       # 主脚本
│   └── ...
└── video-catcher/            # 视频模块
    ├── video_catcher_pro.py  # 主脚本
    └── ...

更新日志

v4.0.0 (最新)

  • 多模态内容提取
  • PDF导出
  • 结构化数据抽取
  • 增量更新监测
  • 翻译集成

v3.0.0

  • 融合Video Catcher

v2.1.3

  • Smart模式
  • 分析功能

Version tags

latestvk973cw6z1603q28bgxydsrshyx85ennj