xhs-prohibited-word(小红书违禁词查询)

当用户需要查询小红书平台违禁词、检查笔记或推广文案是否含敏感词、限流词,或希望获得标红结果、安全替换词与「仅替换违禁词后的优化文案」时使用;能力摘要:文本 / 文件 / 网页多路输入(图片需先 OCR 成文本),脚本检测与固定三板块输出,并按规范写入可下载的纯文本优化文案文件。

Audits

Pass

Install

openclaw skills install xhs-prohibited-word

小红书违禁词检测

需要执行完整流程(字数分界、分批询问、输出模板、文件写入与卡片发送等)时,必须先读取并严格遵守 references/core_workflow.md;本页为提纲与入口说明,不可替代该文档中的全部约束。

简介

面向在小红书发布种草笔记、活动海报、商品详情与私域话术的创作者、品牌运营与营销同学,在投稿前快速发现平台侧敏感/违禁表述,并拿到可执行的改稿建议。

通过本 Skill,你可以:

  • 定向审核:针对小红书规则做违禁词与敏感表达检测,区别于泛化的「广告法」套话
  • 多源输入:直接粘贴文案、上传 TXT/DOC/DOCX、给网页链接;图片需由对话侧先提取文字再送检
  • 可交付改稿:除标红与替换表格外,按规范输出建议优化文案,并生成可下载的纯文本文件

运行依赖见 frontmatter 中的 dependency;具体脚本参数、输出铁律与异常处理以 references/core_workflow.md 为准。

功能特性

核心功能

  • 多路送检--content 直传文案、--file 读本地文本类文件、--url 拉取网页正文(Playwright 优先,失败回退 urllib 静态 HTML)
  • 篇幅控制:脚本单次检测上限 3000 字符;超长内容须按核心文档暂停询问或分批,>10000 字符按文档直接中止检测流程
  • 结构化结果:违禁词数量与类型、标红 HTML、逐词替换建议表、建议优化文案(富文本规则见核心文档)
  • 交付物:检出违禁词时须写入 ./小红书_优化文案_{随机6位数字}.txt 并以卡片发送(详见核心文档,含分批汇总要求)

特色亮点

  • 英文误匹配过滤:脚本侧对已知的英文子串误判做过滤,减轻「单词内含敏感片段」类噪声(详见核心文档说明)
  • 网络容错:脚本对 5xx、超时等具备自动重试(次数见核心文档),主 Agent 无需重复手动重试请求

使用指南

执行前(必读)

加载核心工作流

打开 references/core_workflow.md,对其中的任务目标、操作步骤、输出模板、格式铁律与注意事项全文生效,不得以「只读过 SKILL.md」为由省略分批追问、三板块格式或文件卡片发送。

基础使用(3 步)

第 1 步:识别输入类型并提取字数

判断用户给的是纯文本、文件路径、URL 还是图片。 文件 / URL 先用 --extract-only 取正文与 length(命令见下表);图片先用对话工具提取文字,再按字数规则决定是否追问分批。PDF 不支持,引导用户转为图片或文本。

第 2 步:按字数规则调用脚本

  • ≤3000 字符:直接检测。
  • 3000~10000:必须先按核心文档原文暂停询问,根据用户选择单次截断或分批(每批 ≤3000,自然断句)。
  • >10000:按核心文档提示并中断,不执行检测。

第 3 步:解析 JSON 并按模板输出

严格使用核心文档中的三板块模板呈现;word_count=0 时仅输出第一板块且不写文件。有违禁词时完成优化文案文件写入与卡片发送。

对话示例

用户:帮我看下这段笔记有没有违禁词:「这款美白神器真的太有效了……」 助手:已统计字数(≤3000),调用 check_sensitive_words.py --content="...";随后仅输出三板块结果,并在有需要时写入 txt 并以卡片发送。

用户:这是我的稿子文件 /path/note.docx,检查一下。 助手:先 --file=... --extract-only 查看 length,再按核心文档决定是直接检测还是暂停询问分批。

常用命令速查

命令示例功能
python scripts/check_sensitive_words.py --content="文案"直接检测(单次 ≤3000 字符由脚本侧校验)
python scripts/check_sensitive_words.py --file=/path/a.txt --extract-only仅从文件提取全文与字数
python scripts/check_sensitive_words.py --url=https://example.com --extract-only仅从网页提取正文与字数
python scripts/check_sensitive_words.py --file=/path/a.docx从文件读入并检测(通常建议仍先 extract-only 再走字数流程)

--content--file--url 三者互斥;平台固定为小红书,无需也不支持切换平台。更多说明见核心文档「资源索引」。

使用场景

场景角色需求描述使用方式
笔记发布前自检创作者担心文案触发审核或限流,需要具体词级提示粘贴正文或上传 DOCX;按字数规则调用脚本;输出标红与替换表
营销物料合规品牌运营活动页、海报字多且来源杂,需统一过一遍文件或 URL 提取 → 字数判断 → 分批或单次检测;汇总优化文案文件
投放脚本批量改稿效果投放多条卖点话术需快速扫雷并给可替换说法分批 --content;每批三板块;最终合并一份 txt 随卡片下发
网页落地页抽查增长 / 运营需检查线上 H5/文章纯文本是否含敏感表述--url --extract-only 再检测;动态页依赖 Playwright,失败则静态 HTML 回退

注意事项与边界

  • 结果来源:检出结论以脚本返回 JSON 为准;脚本报错或网络失败时,向用户说明原因并禁止编造违禁词列表或替换词。
  • 合规与免责:输出中的数据说明语须按核心文档保留;本工具为辅助参考,不替代法务或平台最终判定。
  • 隐私:不要在无关场合复述用户全文;按平台要求最小化展示必要片段。
  • 能力边界:不支持 PDF;图片必经 OCR;网页极端反爬或脚本环境缺依赖时,提取可能失败——应如实告知并建议换输入方式。
  • 正文约束:所有字数分界、输出铁律、文件命名与「必须发送文件卡片」等细节,一律以 references/core_workflow.md 为最终依据。