Install
openclaw skills install douyin-scraper-nlClawHub Security found sensitive or high-impact capabilities. Review the scan results before using.
抖音图文笔记采集工具。支持自然语言搜索(如"搜索一下海鲜视频")和关键词搜索。搜索关键词 → 自动筛选「图文·一周内」→ Playwright 截图(绕过反爬虫)→ Baidu OCR 识别图片文字 → 输出 Markdown 报告(含热度评分)。当用户提到"抖音图文采集"、"抖音笔记抓取"、"抖音爬虫"、"抖音内容采集"、"搜索一下xxx"、"帮我找xxx"等场景时加载此技能。
openclaw skills install douyin-scraper-nl抖音图文笔记采集工具 —— 一条命令完成:搜索 → 筛选图文 → 截图 → OCR → Markdown 报告。
pip install playwright requests python-dotenv
python -m playwright install chromium
在技能目录创建 .env:
BAIDU_PADDLEOCR_TOKEN=你的token
获取 Token:访问 百度 AI Studio,免费注册,每天 1 万次免费调用。
python <skill_path>/scripts/login.py
浏览器打开抖音,扫码登录后关闭。登录状态自动保存,后续无需重复操作。
用户可以用自然语言请求搜索,你(AI agent)需要从中提取搜索关键词,然后调用脚本。
提取规则:
示例:
| 用户输入 | 提取关键词 | 命令 |
|---|---|---|
| 搜索一下海鲜视频 | 海鲜 | --keyword "海鲜" |
| 帮我找抖音上的减肥餐 | 减肥餐 | --keyword "减肥餐" |
| 搜一下韩国医美图文笔记 | 韩国医美 | --keyword "韩国医美" |
| 看看最近咖啡相关内容 | 咖啡 | --keyword "咖啡" |
| 找一下关于猫咪的 | 猫咪 | --keyword "猫咪" |
执行步骤:
profile/ 目录是否存在且有内容)python <skill_path>/scripts/login.py(需要用户扫码)# 采集 10 篇图文笔记(含 OCR)
python <skill_path>/scripts/full_workflow.py --keyword "韩国医美"
# 指定数量
python <skill_path>/scripts/full_workflow.py --keyword "减肥餐" --count 5
# 跳过 OCR(仅截图)
python <skill_path>/scripts/full_workflow.py --keyword "咖啡" --no-ocr
| 参数 | 说明 | 默认值 |
|---|---|---|
--keyword | 搜索关键词 | 必填 |
--count | 采集笔记数量 | 5 |
--no-ocr | 跳过 OCR | 关闭 |
--headless | 无头模式(需 Xvfb 或已登录状态) | 关闭 |
在服务器/容器中,需先启动 Xvfb,再用 --headless 运行:
Xvfb :99 -screen 0 1280x800x24 &
export DISPLAY=:99
python <skill_path>/scripts/full_workflow.py --keyword "海鲜" --headless
⚠️ 首次使用需先登录(
python <skill_path>/scripts/login.py),登录状态保存在profile/目录。无头环境无法扫码,需在有头环境先完成登录。
报告保存至 output/notes_{keyword}_{timestamp}.md,图片保存至 data/images/。
每篇笔记包含:
element.screenshot() 截取内容图,绕过抖音图片 URL 反爬虫likes / days_ago,越新越热排越前douyin-scraper/
├── scripts/
│ ├── full_workflow.py # 主流水线
│ └── login.py # 登录脚本
├── data/
│ └── images/ # 截图
├── output/ # Markdown 报告
├── profile/ # 浏览器登录状态
└── .env # Token 配置