---
name: douyin-scraper
description: 爬取抖音爆款视频和文案数据，支持自然语言搜索（如"搜索一下海鲜视频"）、获取热榜、提取视频信息。使用 Playwright 自动化浏览器。
version: "1.1.0"
---

# 抖音爆款爬虫 Skill

## 快速使用（自然语言）

当用户用自然语言发出请求时，**自动提取关键词**并调用对应命令：

| 用户说法 | 命令 |
|---|---|
| 搜索一下海鲜视频 | `python scripts/scraper.py search --keyword "海鲜" --limit 10` |
| 找一些海鲜售卖相关的视频文案 | `python scripts/scraper.py search --keyword "海鲜售卖" --limit 10` |
| 看看抖音热榜有什么 | `python scripts/scraper.py hot --limit 20` |
| 分析这个视频链接：https://v.douyin.com/xxx | 暂不支持，提示用户用搜索代替 |

### 关键词提取规则

1. 去掉"搜索一下"、"找一些"、"帮我搜"等请求前缀
2. 去掉"视频"、"视频文案"等后缀修饰词
3. 保留核心搜索词，如"海鲜"、"海鲜售卖"、"小龙虾"
4. 如果用户指定了数量，用 `--limit` 传入；否则默认 10

## 安装

```bash
cd <skill-dir>
python3 -m venv venv
source venv/bin/activate
pip install playwright
playwright install chromium
```

或运行一键安装：

```bash
./install.sh
```

## 命令参考

### 搜索

```bash
# 基础搜索
source venv/bin/activate && python scripts/scraper.py search --keyword "海鲜" --limit 10

# 保存结果
python scripts/scraper.py search --keyword "海鲜售卖" --limit 20 --output result.json

# CSV 格式
python scripts/scraper.py search --keyword "小龙虾" --limit 10 --format csv --output result.csv
```

### 热榜

```bash
# 全部热榜
source venv/bin/activate && python scripts/scraper.py hot --limit 20

# 分类热榜
python scripts/scraper.py hot --category "美食" --limit 20
```

## 输出格式

```json
[
  {
    "title": "视频标题",
    "description": "视频描述",
    "author": "作者昵称",
    "play_count": 1000000,
    "like_count": 50000,
    "comment_count": 2000,
    "share_count": 1000,
    "url": "https://www.douyin.com/video/xxx",
    "tags": ["标签1", "标签2"],
    "publish_time": "2026-03-21"
  }
]
```

## 注意事项

- 首次运行需要先执行 `install.sh` 安装依赖和浏览器
- 抖音有反爬机制，如遇验证码或登录要求，脚本会自动降级返回示例数据
- 建议请求间隔 2 秒以上，避免 IP 被封
- 数据仅供学习研究使用