虾抓抓 v4.0 - 超强内容抓取技能
原名:xia-zhua-zhua,又称Content Catcher
升级亮点 (v4.0)
| 新功能 | 说明 |
|---|
| PDF导出 | 直接导出为PDF |
| 多模态提取 | 图片/音频/视频资源 |
| 结构化抽取 | 表格/列表/卡片智能识别 |
| 增量监测 | 页面更新自动提醒 |
| 翻译集成 | 抓取后自动翻译 |
| 深度渲染 | 完整JS动态内容 |
核心能力
1. 网页内容抓取
| 模式 | 命令 | 说明 |
|---|
| 标准模式 | node markdown-clip.js <url> | CSS选择器 |
| Smart模式 | node markdown-clip.js <url> --smart | Readability AI |
| 分析模式 | node markdown-clip.js <url> --analyze | 摘要+关键词 |
2. 视频下载
| 命令 | 说明 |
|---|
python video_catcher_pro.py ytdlp <url> | yt-dlp下载 |
python video_catcher_pro.py m3u8 <url> | M3U8下载 |
v4.0 新增功能
多模态提取
# 提取图片资源
node content-extractor.js <url> --images
# 提取所有媒体
node content-extractor.js <url> --media
PDF导出
# 导出为PDF
node content-extractor.js <url> --pdf
# Markdown + PDF双导出
node content-extractor.js <url> --both
结构化抽取
# 智能识别表格
node content-extractor.js <url> --tables
# 识别列表数据
node content-extractor.js <url> --lists
增量监测
# 监测页面更新
node content-watcher.js <url> --watch
# 设置更新提醒
node content-watcher.js <url> --watch --notify
翻译功能
# 翻译为英文
node content-extractor.js <url> --translate en
# 翻译为日文
node content-extractor.js <url> --translate jp
技术架构
┌─────────────────────────────────────────────────────────┐
│ Content Catcher v4.0 │
├─────────────────────────────────────────────────────────┤
│ │
│ ┌─────────────┐ ┌─────────────┐ ┌─────────────┐ │
│ │ Playwright │ │ Turndown │ │ yt-dlp │ │
│ │ (渲染) │ │ (Markdown) │ │ (视频) │ │
│ └──────┬──────┘ └──────┬──────┘ └─────────────┘ │
│ │ │ │
│ ┌──────▼──────┐ ┌──────▼──────┐ │
│ │ 多模态提取 │ │ 结构化 │ │
│ │ 图片/音频 │ │ 表格/列表 │ │
│ └─────────────┘ └─────────────┘ │
│ │ │
│ ┌──────▼──────┐ │
│ │ 输出格式 │ │
│ │ Markdown │ │
│ │ PDF │ │
│ │ JSON │ │
│ └─────────────┘ │
└─────────────────────────────────────────────────────────┘
升级对比
| 功能 | v2.x | v3.x | v4.x |
|---|
| Markdown | ✅ | ✅ | ✅ |
| Smart模式 | ✅ | ✅ | ✅ |
| 分析 | ✅ | ✅ | ✅ |
| 视频下载 | - | ✅ | ✅ |
| PDF导出 | - | - | ✅ |
| 多模态 | - | - | ✅ |
| 结构化 | - | - | ✅ |
| 增量监测 | - | - | ✅ |
| 翻译 | - | - | ✅ |
依赖工具
| 工具 | 状态 | 用途 |
|---|
| Node.js | ✅ | 运行环境 |
| Playwright | ✅ | 页面渲染 |
| Turndown | ✅ | HTML→Markdown |
| Python | ✅ | 分析/翻译 |
| yt-dlp | ✅ | 视频下载 |
| weasyprint | ✅ | PDF导出 |
| googletrans | ⬜ | 翻译(可选) |
使用示例
基础抓取
node xia-zhua-zhua/markdown-clip.js https://example.com --smart
多模态+PDF
node content-extractor.js https://example.com --media --pdf
视频下载
python video-catcher/video_catcher_pro.py ytdlp https://b.com/video
文件结构
content-catcher/
├── SKILL.md # 本文档
├── xia-zhua-zhua/ # 虾抓抓模块
│ ├── markdown-clip.js # 主脚本
│ └── ...
└── video-catcher/ # 视频模块
├── video_catcher_pro.py # 主脚本
└── ...
更新日志
v4.0.0 (最新)
- 多模态内容提取
- PDF导出
- 结构化数据抽取
- 增量更新监测
- 翻译集成
v3.0.0
v2.1.3