Install
openclaw skills install douyin-scraper-v2抖音图文笔记采集工具。支持自然语言搜索(如"搜索一下海鲜视频"),自动提取关键词 → 搜索 → 筛选「图文·一周内」→ Playwright 截图(绕过反爬虫)→ Baidu OCR 识别图片文字 → 输出 Markdown 报告(含热度评分)。当用户提到"抖音搜索"、"抖音图文采集"、"抖音笔记抓取"、"抖音爬虫"、"抖音内容采集"、"搜一下xxx视频/笔记"等场景时加载此技能。
openclaw skills install douyin-scraper-v2抖音图文笔记采集工具 —— 一条命令完成:搜索 → 筛选图文 → 截图 → OCR → Markdown 报告。
pip install playwright requests python-dotenv
python -m playwright install chromium
在技能目录创建 .env:
BAIDU_PADDLEOCR_TOKEN=你的token
获取 Token:访问 百度 AI Studio,免费注册,每天 1 万次免费调用。
python <skill_path>/scripts/login.py
浏览器打开抖音,扫码登录后关闭。登录状态自动保存,后续无需重复操作。
当用户用自然语言提出搜索需求时,先提取关键词,再调用脚本。
--count;否则用默认值--no-ocr| 用户输入 | 提取关键词 | 命令 |
|---|---|---|
| 搜索一下海鲜视频 | 海鲜 | --keyword "海鲜" |
| 帮我找找韩国医美相关内容 | 韩国医美 | --keyword "韩国医美" |
| 抖音上最近有什么减肥餐笔记 | 减肥餐 | --keyword "减肥餐" |
| 看看咖啡相关的图文,要5条 | 咖啡 | --keyword "咖啡" --count 5 |
| 搜一下宠物猫,不用OCR | 宠物猫 | --keyword "宠物猫" --no-ocr |
| 抖音搜索穿搭技巧 | 穿搭技巧 | --keyword "穿搭技巧" |
python <skill_path>/scripts/full_workflow.py --keyword "<提取的关键词>" [--count N] [--no-ocr]
output/ 下生成的 Markdown 报告# 采集 10 篇图文笔记(含 OCR)
python <skill_path>/scripts/full_workflow.py --keyword "韩国医美"
# 指定数量
python <skill_path>/scripts/full_workflow.py --keyword "减肥餐" --count 5
# 跳过 OCR(仅截图)
python <skill_path>/scripts/full_workflow.py --keyword "咖啡" --no-ocr
| 参数 | 说明 | 默认值 |
|---|---|---|
--keyword | 搜索关键词 | 必填 |
--count | 采集笔记数量 | 5 |
--no-ocr | 跳过 OCR | 关闭 |
报告保存至 output/notes_{keyword}_{timestamp}.md,图片保存至 data/images/。
每篇笔记包含:
element.screenshot() 截取内容图,绕过抖音图片 URL 反爬虫likes / days_ago,越新越热排越前douyin-scraper/
├── scripts/
│ ├── full_workflow.py # 主流水线
│ └── login.py # 登录脚本
├── data/
│ └── images/ # 截图
├── output/ # Markdown 报告
├── profile/ # 浏览器登录状态
└── .env # Token 配置