抖音爆款爬虫

Other

爬取抖音爆款视频和文案数据,支持自然语言搜索(如"搜索一下海鲜视频")、获取热榜、提取视频信息。使用 Playwright 自动化浏览器。

Install

openclaw skills install douyin-scraper-terrycarter

抖音爆款爬虫 Skill

快速使用(自然语言)

当用户用自然语言发出请求时,自动提取关键词并调用对应命令:

用户说法命令
搜索一下海鲜视频python scripts/scraper.py search --keyword "海鲜" --limit 10
找一些海鲜售卖相关的视频文案python scripts/scraper.py search --keyword "海鲜售卖" --limit 10
看看抖音热榜有什么python scripts/scraper.py hot --limit 20
分析这个视频链接:https://v.douyin.com/xxx暂不支持,提示用户用搜索代替

关键词提取规则

  1. 去掉"搜索一下"、"找一些"、"帮我搜"等请求前缀
  2. 去掉"视频"、"视频文案"等后缀修饰词
  3. 保留核心搜索词,如"海鲜"、"海鲜售卖"、"小龙虾"
  4. 如果用户指定了数量,用 --limit 传入;否则默认 10

安装

cd <skill-dir>
python3 -m venv venv
source venv/bin/activate
pip install playwright
playwright install chromium

或运行一键安装:

./install.sh

命令参考

搜索

# 基础搜索
source venv/bin/activate && python scripts/scraper.py search --keyword "海鲜" --limit 10

# 保存结果
python scripts/scraper.py search --keyword "海鲜售卖" --limit 20 --output result.json

# CSV 格式
python scripts/scraper.py search --keyword "小龙虾" --limit 10 --format csv --output result.csv

热榜

# 全部热榜
source venv/bin/activate && python scripts/scraper.py hot --limit 20

# 分类热榜
python scripts/scraper.py hot --category "美食" --limit 20

输出格式

[
  {
    "title": "视频标题",
    "description": "视频描述",
    "author": "作者昵称",
    "play_count": 1000000,
    "like_count": 50000,
    "comment_count": 2000,
    "share_count": 1000,
    "url": "https://www.douyin.com/video/xxx",
    "tags": ["标签1", "标签2"],
    "publish_time": "2026-03-21"
  }
]

注意事项

  • 首次运行需要先执行 install.sh 安装依赖和浏览器
  • 抖音有反爬机制,如遇验证码或登录要求,脚本会自动降级返回示例数据
  • 建议请求间隔 2 秒以上,避免 IP 被封
  • 数据仅供学习研究使用