Humanize Chinese

v2.4.0

Detect and humanize AI-generated Chinese text. 20+ detection categories, weighted 0-100 scoring with sentence-level analysis, 7 style transforms (casual/zhih...

4· 1.4k·9 current·10 all-time
bySway Liu@swaylq
Security Scan
VirusTotalVirusTotal
Benign
View report →
OpenClawOpenClaw
Benign
high confidence
Purpose & Capability
Name/description (detect & humanize Chinese AI text, academic AIGC reduction) match the shipped files and SKILL.md. The repo contains detection, humanization, academic and style scripts plus an n-gram frequency table; none of the required environment variables, binaries, or config paths are extraneous.
Instruction Scope
SKILL.md tells the agent to run local scripts in scripts/ and to read/write local files; the scripts themselves load local JSON configs (patterns_cn.json, ngram_freq_cn.json) and perform text analysis and replacements. There are no instructions to read unrelated system config, exfiltrate data, or post to external endpoints.
Install Mechanism
No install spec is declared; the project is zero‑dependency Python and README suggests cloning or copying files. Nothing in the manifest pulls code from arbitrary URLs or runs opaque installers.
Credentials
The skill declares no required environment variables, no credentials, and no config paths. The scripts operate on local files and local JSON data; that is proportional to the stated functionality.
Persistence & Privilege
always:false and no special privilege requests. SKILL.md allows the agent to exec/read/write/edit — appropriate for a CLI tool that reads and rewrites files, but granting 'exec' means the agent can run local scripts autonomously if permitted by the platform; exercise normal caution when enabling autonomous execution.
Assessment
What to consider before installing or running this skill: - Functional fit: The package is local, pure‑Python, and does what it claims: pattern + n‑gram detection and rule/statistics‑guided rewriting. The SKILL.md instructions align with the included scripts. - No hidden credentials or network calls were found in the provided excerpts; the code reads local JSON files (patterns_ngram etc.) and calls local scripts. Still, always review the full scripts (including truncated portions) before running. - Execution risk: The skill needs permission to execute local Python scripts (SKILL.md lists exec). If you allow the agent to invoke skills autonomously, it could run those scripts without further prompts — sandbox or restrict autonomous execution if you don't want that. - Ethical/legal risk: This tool explicitly aims to reduce AIGC detection scores and to '降重' for academic submissions (CNKI/VIP/Wanfang). That is a meaningful misuse/academic‑integrity risk. Even though it's technically coherent, using it to evade institutional checks may violate rules or laws — do not use it to cheat or to conceal authorship. - Practical recommendations: (1) Review the full source locally (especially ngram_model.py and any truncated code) before execution. (2) Run in an isolated environment or container if you are unsure. (3) Use outputs as editing suggestions only — read and verify rewritten text, citations, and logic. (4) Avoid using 'aggressive' modes on sensitive or authoritative documents without manual review. (5) If you want extra assurance, run the scripts on non‑sensitive sample files first to observe behavior. If you want, I can scan the remaining truncated files for network I/O or dangerous system calls and flag any suspicious code paths I find.

Like a lobster shell, security has layers — review code before you run it.

latestvk97e0g9y96bmvykms0svmn8pgh83m44d
1.4kdownloads
4stars
8versions
Updated 3w ago
v2.4.0
MIT-0

Humanize Chinese AI Text v2.1

检测和改写中文 AI 生成文本的完整工具链。可独立运行(CLI),也可作为 LLM prompt 指南使用。

CLI Tools

所有脚本在 scripts/ 目录下,纯 Python,无依赖。

# 检测 AI 模式(20+ 维度,0-100 分)
python scripts/detect_cn.py text.txt
python scripts/detect_cn.py text.txt -v          # 详细 + 最可疑句子
python scripts/detect_cn.py text.txt -s           # 仅评分
python scripts/detect_cn.py text.txt -j           # JSON 输出

# 改写
python scripts/humanize_cn.py text.txt -o clean.txt
python scripts/humanize_cn.py text.txt --scene social -a   # 社交场景 + 激进模式
python scripts/humanize_cn.py text.txt --style xiaohongshu # 先改写再转风格

# 风格转换
python scripts/style_cn.py text.txt --style zhihu -o out.txt

# 前后对比
python scripts/compare_cn.py text.txt --scene tech -a

# 学术论文 AIGC 降重
python scripts/academic_cn.py paper.txt -o clean.txt --compare
python scripts/academic_cn.py paper.txt -o clean.txt -a --compare  # 激进

评分标准

分数等级含义
0-24LOW基本像人写的
25-49MEDIUM有些 AI 痕迹
50-74HIGH大概率 AI 生成
75-100VERY HIGH几乎确定是 AI

参数速查

参数说明
-v详细模式,显示可疑句子
-s仅评分
-jJSON 输出
-o输出文件
-a激进模式
--seed N固定随机种子
--scenegeneral / social / tech / formal / chat
--stylecasual / zhihu / xiaohongshu / wechat / academic / literary / weibo
--compare前后对比

工作流

# 1. 检测
python scripts/detect_cn.py document.txt -v
# 2. 改写 + 对比
python scripts/compare_cn.py document.txt -a -o clean.txt
# 3. 验证
python scripts/detect_cn.py clean.txt -s
# 4. 可选:转风格
python scripts/style_cn.py clean.txt --style zhihu -o final.txt

LLM 直接使用指南

当用户要求"去 AI 味"、"降 AIGC"、"人性化文本"、"改成人话"时,如果无法运行 CLI 工具,按以下流程手动处理。

第一步:检测 AI 写作模式

扫描文本中的以下模式,按严重程度分类:

🔴 高危模式(一眼就能看出是 AI)

三段式套路:

  • 首先…其次…最后
  • 一方面…另一方面
  • 第一…第二…第三

机械连接词: 值得注意的是、综上所述、不难发现、总而言之、与此同时、由此可见、不仅如此、换句话说、更重要的是、不可否认、显而易见、不言而喻、归根结底

空洞宏大词: 赋能、闭环、数字化转型、协同增效、降本增效、深度融合、全方位、多维度、系统性、高质量发展、新质生产力

🟠 中危模式

AI 高频词: 助力、彰显、凸显、底层逻辑、抓手、触达、沉淀、复盘、迭代、破圈、颠覆

填充废话: 值得一提的是、众所周知、毫无疑问、具体来说、简而言之

模板句式:

  • 随着…的不断发展
  • 在当今…时代
  • 在…的背景下
  • 作为…的重要组成部分
  • 这不仅…更是…

平衡论述套话: 虽然…但是…同时、既有…也有…更有

🟡 低危模式

  • 犹豫语过多(在一定程度上、某种程度上 出现 >5 次)
  • 列举成瘾(动辄①②③④⑤)
  • 标点滥用(大量分号、破折号)
  • 修辞堆砌(排比对偶过多)

⚪ 风格信号

  • 段落长度高度一致
  • 句子长度单调
  • 情感表达平淡
  • 开头方式重复
  • 信息熵低(用词可预测)

第二步:改写策略

按以下顺序处理:

1. 砍掉三段式 把"首先…其次…最后"打散,用自然过渡代替。不是每个论点都要编号。

2. 替换 AI 套话

  • 综上所述 → 总之 / 说到底 / (直接删掉)
  • 值得注意的是 → (直接删掉,后面的话自己能说清楚)
  • 赋能 → 帮助 / 支持 / 提升
  • 数字化转型 → 信息化改造 / 技术升级
  • 不难发现 → 可以看到 / (删掉)
  • 助力 → 帮 / 推动

3. 句式重组

  • 过短的句子合并("他很累。他决定休息。" → "他累了,干脆歇会儿。")
  • 过长的句子拆开(在"但是""不过""同时"等转折处断开)
  • 打破均匀节奏(长短句交替,不要每句差不多长)

4. 减少重复用词 同一个词出现 3 次以上就换同义词。比如"进行"可以换成"做""搞""开展""着手"。

5. 注入人味

  • 加一两句口语化表达(场景允许的话)
  • 用具体的例子代替抽象概括
  • 偶尔加个反问或感叹
  • 不要每段都总分总结构

6. 段落节奏 打破每段差不多长的格局。有的段落 2 句话,有的 5 句话,像人写东西时自然的长短变化。

第三步:学术论文特殊处理

当文本是学术论文时,改写规则不同——不能口语化,要保持学术严谨性:

学术专用检测维度:

  1. AI 学术措辞("本文旨在""具有重要意义""进行了深入分析")
  2. 被动句式过度("被广泛应用""被认为是")
  3. 段落结构过于整齐(每段总-分-总)
  4. 连接词密度异常
  5. 同义表达匮乏("研究"出现 8 次)
  6. 引用整合度低(每个引用都是"XX(2020)指出…")
  7. 数据论述模板化("从表中可以看出")
  8. 过度列举(①②③④ 频繁出现)
  9. 结论过于圆满(只说好不说局限)
  10. 语气过于确定("必然""毫无疑问")

学术改写策略:

  • 替换 AI 学术套话(保持学术性):

    • 本文旨在 → 本文尝试 / 本研究关注
    • 具有重要意义 → 值得关注 / 有一定参考价值
    • 研究表明 → 前人研究发现 / 已有文献显示 / 笔者观察到
    • 进行了深入分析 → 做了初步探讨 / 展开了讨论
    • 取得了显著成效 → 产生了一定效果 / 初见成效
  • 减少被动句:

    • 被广泛应用 → 得到较多运用 / 在多个领域有所应用
    • 被认为是 → 通常被看作 / 一般认为
  • 注入学术犹豫语(hedging): 在过于绝对的判断前加"可能""在一定程度上""就目前而言""初步来看"

  • 增强作者主体性:

    • 研究表明 → 笔者认为 / 本研究发现
    • 可以认为 → 笔者倾向于认为
  • 补充局限性: 如果结论段没有提到局限,补一句"当然,本研究也存在一定局限…"

  • 打破结构均匀度: 调整段落长度,避免每段都一样。合并过短的段落,拆分过长的。

第四步:验证

改写完成后,用 CLI 工具验证效果:

python scripts/detect_cn.py output.txt -s

目标:通用文本降到 25 分以下,学术论文降到 30 分以下。


配置说明

所有检测模式和替换规则在 scripts/patterns_cn.json,可自定义:

  • 添加新 AI 词汇
  • 调整权重
  • 增加替换规则
  • 修改正则匹配

外部配置字段

critical_patterns    — 高权重检测(三段式、连接词、空洞词)
high_signal_patterns — 中权重检测(AI 高频词、模板句)
replacements         — 替换词库(正则 + 纯文本)
academic_patterns    — 学术专用检测与替换
scoring              — 权重和阈值配置

Comments

Loading comments...