抖音爆款爬虫 Pro

Other

爬取抖音爆款视频和文案数据,支持自然语言搜索请求。使用 Playwright 自动化浏览器操作,支持搜索关键词、获取热榜、提取视频信息和文案。

Install

openclaw skills install douyin-scraper-pro

抖音爆款爬虫 Skill

Agent 指南:自然语言解析

当用户用自然语言发请求时,按以下规则提取参数并执行对应命令:

请求类型识别

用户说法示例类型命令
搜索一下海鲜视频 / 找一些海鲜售卖的视频 / 帮我搜海鲜searchsearch --keyword "<关键词>"
看看抖音热榜 / 热榜有什么 / 抖音热搜hothot
分析这个视频链接 https://v.douyin.com/xxxanalyzeanalyze --url "<url>"

关键词提取规则

  1. 去掉无意义动词/助词:「搜索一下」「帮我找」「看看」「有没有」
  2. 提取核心搜索词:「搜索一下海鲜视频」→ keyword=海鲜
  3. 如果用户指定数量则用之,否则默认 --limit 10
  4. 如果用户指定输出文件则用之,否则默认 stdout

执行方式

优先使用 Python 脚本(更稳定的数据提取):

cd {{SKILL_DIR}} && bash scripts/run.sh search --keyword "海鲜" --limit 10

如果 Python 环境不可用,回退到 Node.js:

cd {{SKILL_DIR}} && node scripts/douyin_scraper.js search "海鲜" 10

输出解读

脚本输出 JSON 数组,每个元素包含:

  • title — 视频标题
  • description — 视频描述/文案
  • author — 作者昵称
  • play_count / like_count / comment_count / share_count — 互动数据
  • url — 视频链接
  • tags — 标签列表
  • publish_time — 发布时间

Agent 应将结果整理为用户友好的格式呈现,而非直接 dump JSON。

完整命令参考

搜索

# Python
bash scripts/run.sh search --keyword "海鲜" --limit 10
bash scripts/run.sh search --keyword "海鲜售卖" --limit 20 --output result.json

# Node.js
node scripts/douyin_scraper.js search "海鲜" 10

热榜

# Python
bash scripts/run.sh hot --limit 20
bash scripts/run.sh hot --category "美食" --limit 20

# Node.js
node scripts/douyin_scraper.js hot 20

分析视频链接

bash scripts/run.sh analyze --url "https://v.douyin.com/xxxxx/"

安装

首次使用前需安装依赖:

cd {{SKILL_DIR}}
pip install playwright
playwright install chromium

或使用 Node.js:

cd {{SKILL_DIR}}
npm install
npx playwright install chromium

注意事项

  • 遵守抖音平台规则,合理使用,避免频繁请求
  • 请求之间有默认 2 秒延时
  • 数据仅供学习研究使用
  • 不要登录账号,避免风控
  • 注意 IP 限制风险