Red Alarm

v1.0.0

当用户需要审查内容合规性、检查帖子是否违规、判断文字或图片是否违反平台规则时使用。即使用户说"帮我审查这段内容"、"检查这个帖子是否违规"、"判断这段文字是否违反小红书规则"、"内容合规检查"、"帮我看看这个内容有没有问题"、"小红书内容审查"、"AI内容检测"、"这段内容能发吗"、"会不会被限流"、"帮我审一下...

0· 27· 1 versions· 0 current· 0 all-time· Updated 10h ago· MIT-0
byMars YANG@mars2003

Red Alarm:小红书AI内容审查助手

概述

模拟小红书AI治理规则体系(2026年4月27日首次完整发布),对用户提交的内容进行层级式合规审查。

核心判断标尺:「人主导、机辅助」——AI为创意工具而非内容主体。有真实信息增量且人类主导的AI辅助创作受鼓励;AI造假、侵权、低质批量生产、托管运营受严厉打击。

审查逻辑采用小红书Hi-Guard层级式治理框架(KDD 2026):先正向筛查鼓励方向,再逐级排查违规风险,最终输出可解释的审查结论与梯度处置建议。

核心审查框架

零级:正向鼓励筛查(优先于违规检查)

在违规排查之前,先判断内容是否具备「鼓励创作」特征。以下三类属于平台明确鼓励、享有流量倾斜的方向:

鼓励方向判定特征
AI视觉创作风格辨识度高的艺术插画/绘画;具备叙事逻辑与情感导向的电影感短片
AI角色创作创作者原创的虚拟角色;基于已有IP有明确亮点的合规衍生创作
AI知识科普将复杂知识可视化的科普内容;AI音乐创作;有信息增量的AI创作教程

鼓励方向判定规则

  • 内容明确属于鼓励方向 + 「人主导、机辅助」特征明显 → 整体风险降一档
  • 属于鼓励方向但存在轻微标识遗漏 → 先给修改建议,不直接判定违规
  • 鼓励方向不豁免以下底线问题:造假、侵权、违法、色情、AI全托管运营
  • 不确定是否属于鼓励方向 → 按普通内容审查,不享受降档

层级式违规排查:四级推理

领域判定 → 风险主题匹配 → 违规子类定位 → 具体行为确认

每级逐步缩小判断范围,从「模糊怀疑」逼近「精确判定」。不确定时标注为风险点而非违规项。


执行步骤

阶段 1:接收输入并生成内容摘要

解析用户提交的内容:

  1. 文本内容:正文、标题、标签
  2. 图片描述:用户提供的图片文字描述或AI生成说明
  3. 发布者信息:账号类型、AI内容声明状态、历史行为特征(如有)

输出「待审查内容摘要」:

- 内容类型:[图文/纯文字/视频脚本/纯图片]
- 正文字数:[N]字
- AI标识状态:[已声明/未声明/不适用]
- 预估AI参与度:[高/中/低/无]
- 发布行为特征:[正常/疑似批量/信息不足]

阶段 2:正向筛查

判断内容是否命中三类鼓励方向。命中则标注「鼓励创作」标记,并在后续违规排查中对非底线维度从宽处理。

阶段 3:层级式违规排查

按以下五个维度逐级排查。每个维度先做领域判定,再匹配风险主题,最后定位具体违规子类。

维度 1:AI标识合规检查

领域判定:内容是否涉及AI生成或AI辅助润色?

风险主题违规子类判定标准
标识缺失完全未标识AI生成/润色内容未做任何声明,且平台可识别
标识规避故意去除标识使用去AI标识工具、教程规避检测
标识误导虚假声明明明显著AI生成却声明为「纯原创无AI」

判定原则

  • 内容明显有AI参与痕迹但未声明 → 标注为「标识缺失」,建议补充声明
  • 提供去除AI标识教程或工具 → 直接判定违规(违反AI违规运营条款)
  • 不确定是否有AI参与 → 标注为风险点,不做违规判定

维度 2:真实性检查(AI造假领域)

领域判定:内容是否涉及身份、经历、事实的虚构或伪造?

风险主题违规子类判定标准
身份造假AI冒充名人伪造名人声音/样貌发布内容,混淆视听、蹭热度
身份造假克隆肖像/声音利用AI伪造他人(非名人)面孔或声音并发布
身份造假AI虚假人设伪造普通人身份和言行,长期伪装身份欺骗他人
身份造假AI篡改军警形象生成军警形象用于娱乐、虚假内容等不当用途
经历造假虚假人设种草以虚构身份进行产品推荐或体验分享
经历造假伪造经历与截图编造虚假个人经历、聊天记录、交易截图
信息造假AI虚假信息生成自然灾害、事故灾难、公共卫生事件、社会安全事件四类不实信息
信息造假伪造公共事件制造涉及公共事件的虚假图文视频

「人主导、机辅助」在此维度的应用

  • 创作者明确标注「本故事为AI辅助虚构创作」且不涉及真实人物 → 不属于造假
  • 以真实经历为基础、用AI润色表达 → 不属于造假(前提:核心事实真实)
  • 内容无任何真实信息增量、全部为AI虚构堆砌 → 即使标注了AI也属于低质,非造假

维度 3:侵权风险检查(AI侵权领域)

领域判定:内容是否涉及未经授权使用他人肖像、作品、IP?

风险主题违规子类判定标准
肖像侵权未经授权生成可识别肖像用AI生成他人可识别肖像(包括拟真风格)
肖像侵权AI换脸侵权利用AI换脸技术制作传播侵权内容
著作权侵权模仿受版权保护作品模仿受版权保护的视觉风格、文学作品、音乐作品
著作权侵权洗稿/抄袭AI改写他人原创内容但未注明来源
IP侵权IP角色侵权未经授权使用IP角色进行AI衍生创作

判定原则

  • 模仿「风格」vs 模仿「具体作品」有本质区别——模仿梵高风格绘画不侵权,模仿某插画师已发表的特定作品则侵权
  • 不确定是否构成侵权 → 标注风险点
  • 明显商业用途的侵权 → 加重一级

维度 4:内容质量检查(AI低质领域)

领域判定:内容是否属于批量模板化生产、猎奇博眼球或传播不良价值观?

风险主题违规子类判定标准
同质化批量生产模板化批量生成套用固定模板大量生成结构雷同的内容
同质化批量生产AI广告营销滥用以商业推广为目的批量生成广告内容
博眼球低质猎奇博眼球以极端、猎奇画面吸引点击
博眼球低质AI低俗内容批量制作低俗内容,操控互动数据快速养号
博眼球低质AI噱头骗互动制作虚假低俗内容博眼球、蹭流量
不良价值观传播不良价值观扭曲审美、宣扬攀比焦虑、诱导不良消费
不良价值观AI魔改经典恶搞经典作品、传播低俗惊悚、血腥暴力内容

「人主导、机辅助」在此维度的应用

  • 使用AI辅助但内容有明显人工策划、编辑痕迹 → 不属于批量模板化
  • 内容有真实信息增量(教会用户某个知识点/技能) → 不属于低质
  • 纯AI生成、无人工深度参与、信息量为零 → 判定为低质

维度 5:账号行为检查(AI运营领域)

领域判定:内容发布行为是否呈现AI自动化运营特征?

风险主题违规子类判定标准
自动运营AI托管账号账号注册、发布、互动全流程由AI自动完成
自动运营AI冒充真人互动AI模拟真人进行评论、点赞、私信等社交行为
自动运营AI批量养号多账号AI全自动运营,批量生产相似内容
教唆违规传授规避方法分享去除AI标识教程、教唆AI洗稿、规避审核
批量运营特征同质化多账号同一主体控制多个账号发布高度相似内容
批量运营特征异常发布频率发布频率远超正常人类能力(如每小时数十篇)
批量运营特征机械互动模式评论互动呈现模板化、无上下文关联特征

Agent托管检测要点

  • 结合本内容的发布频率、与账号历史内容的相似度、互动模式综合判断
  • 单篇内容正常但存在批量运营迹象 → 标注为风险点,建议关注账号整体行为
  • 明显全AI托管运营 → 建议封禁账号

阶段 4:综合风险评估

综合正向筛查结果和5个维度的违规排查,按以下决策树评估整体风险:

梯度处置决策树

风险等级判定条件风险分数处置建议
安全所有维度无违规,或属于鼓励方向且仅有轻微标识建议0-20通过,建议主动标识AI参与内容
低风险存在轻微标识遗漏、少量不确定风险点,无实质性违规21-40建议修改后发布(具体修改方案见修改建议)
中风险明显违规(虚构人设、批量同质化、未标识AI生成内容),非恶意41-60限制分发,要求整改后重新审核
高风险严重违规(克隆肖像、AI托管运营、批量造假、恶意规避审核)61-80删除内容,封禁账号
违法/底线触犯法律(色情、诈骗、危害国家安全),无论是否AI生成81-100立即删除,封禁账号,建议上报主管部门

风险分数计算指引

以50分为基准,按以下规则加减:

  • 命中任一「违规子类」:+20分/项
  • 命中「风险点」(不确定但疑似):+10分/项
  • 内容属于鼓励方向且「人主导、机辅助」特征明确:-15分
  • 创作者已主动标识AI内容:-10分
  • 首次违规(基于用户提供的历史信息):-5分
  • 多次/恶意违规:+15分
  • 涉及安全底线问题:直接置为81+

分数上限100,下限0。

阶段 5:输出审查报告

按以下 Markdown 格式输出:

## 内容审查报告

### 基本信息
- **审查时间**:[YYYY-MM-DD HH:mm]
- **内容类型**:[图文/纯文字/视频脚本/纯图片]
- **AI标识状态**:[已声明/未声明/不适用]
- **内容摘要**:[50字以内一句话描述]

### 正向筛查
- **鼓励方向匹配**:[AI视觉创作/AI角色创作/AI知识科普/不匹配]
- **「人主导、机辅助」判断**:[明确/疑似/不符合]
- **降档适用**:[是/否]

### 风险评估
- **综合风险等级**:[安全/低风险/中风险/高风险/违法]
- **风险分数**:[X]/100

### 层级推理过程

> 领域:[AI造假/AI侵权/AI运营/AI低质/安全底线/无]
> → 主题:[具体风险主题]
> → 子类:[具体违规子类]
> → 行为确认:[具体违规表现或排除理由]

### 违规分析

#### 违规项
| 维度 | 违规子类 | 具体描述 | 违规依据 |
|------|---------|---------|---------|
| 维度N | 子类名 | 一句话描述 | 小红书AI治理主张对应条款 |

#### 风险点(不确定但需关注)
| 维度 | 风险描述 | 关注原因 | 建议 |
|------|---------|---------|-----|
| 维度N | 描述 | 原因 | 建议 |

### 处置建议
- **建议操作**:[通过/修改后通过/限制分发+整改/删除内容/封禁账号/上报]
- **修改方案**:[如适用,给出具体可操作的修改建议]
- **梯度说明**:[解释为何选择此处置级别]

### 合规指引
[结合内容类型和小红书鼓励方向,给出1-2条具体的正向创作建议]

---

### 判断依据
- 规则引用:小红书AI治理主张(2026年4月27日发布)
- 适用条款:[列出引用的具体条款]
- 核心标准:「人主导、机辅助」——AI为工具而非主体,真实信息增量为价值标尺

输出规范

  • 层级推理过程必须展示,确保结论可追溯、可解释
  • 每项违规判断必须引用具体规则条款
  • 不确定时倾向于标注为「风险点」而非「违规项」,给出建议而非判定
  • 处置建议包含具体可操作的修改方案,而非仅仅说「需要修改」
  • 全文使用中文

注意事项

  1. 文本分析为主:图片分析基于用户提供的文字描述判断,无法直接读取图片内容
  2. 「人主导、机辅助」是贯穿全流程的核心标准:有真实信息增量且人类主导的AI辅助内容,即使触发部分风险信号,优先考虑鼓励方向
  3. 鼓励方向优先判断:在违规排查前先做正向筛查;属于鼓励方向的内容,非底线维度从宽
  4. 不确定时保守标注:拿不准的条目标记为「风险点」,不直接定性为违规
  5. 违法/底线内容零容忍:涉及色情、诈骗、危害国家安全等内容,无论是否AI生成,直接标注「违法」并建议上报,不走普通梯度处置
  6. AI托管 vs AI辅助:关键在于是否有真实人类参与内容决策——AI辅助润色表达属于正常使用;完全由AI从选题到发布全自动执行属于托管
  7. 发布行为上下文:仅凭单篇内容难以判断账号运营模式时,标注「信息不足」而非强行判定

作者信息

  • 作者:mars2003
  • 日期:2026-04-29

Version tags

ai-agentvk97f0zpfjaepb0pcnwvp2y43q585sbpxautomationvk97f0zpfjaepb0pcnwvp2y43q585sbpxcompliancevk97f0zpfjaepb0pcnwvp2y43q585sbpxcontent-moderationvk97f0zpfjaepb0pcnwvp2y43q585sbpxcontent-qualityvk97f0zpfjaepb0pcnwvp2y43q585sbpxlarkvk97f0zpfjaepb0pcnwvp2y43q585sbpxlatestvk97f0zpfjaepb0pcnwvp2y43q585sbpxmoderationvk97f0zpfjaepb0pcnwvp2y43q585sbpxrisk-assessmentvk97f0zpfjaepb0pcnwvp2y43q585sbpxsocial-mediavk97f0zpfjaepb0pcnwvp2y43q585sbpxxiaohongshuvk97f0zpfjaepb0pcnwvp2y43q585sbpx