# 数字人完整工作流程

## 概述

本文档详细描述数字人视频生成的完整10步工作流程，从需求分析到最终输出，覆盖数字人创作的全生命周期。

---

## 工作流程总览

```
┌─────────────────────────────────────────────────────────────────────┐
│                     数字人视频生成工作流程                             │
├─────────────────────────────────────────────────────────────────────┤
│                                                                     │
│  步骤1        步骤2        步骤3        步骤4        步骤5         │
│  ┌─────┐     ┌─────┐     ┌─────┐     ┌─────┐     ┌─────┐         │
│  │选择 │ ──► │配置 │ ──► │配置 │ ──► │配置 │ ──► │选择 │         │
│  │模板 │     │外观 │     │声音 │     │语言 │     │背景 │         │
│  └─────┘     └─────┘     └─────┘     └─────┘     └─────┘         │
│       │                                                      │     │
│       │  OPC专属模板库                                        │     │
│       │  • 老胡说                                            │     │
│       │  • OPC虚拟主播                                       │     │
│       │  • 私董会成员                                        │     │
│       └──────────────────────────────────────────────────────┘     │
│                                                                     │
│  步骤6        步骤7        步骤8        步骤9        步骤10        │
│  ┌─────┐     ┌─────┐     ┌─────┐     ┌─────┐     ┌─────┐         │
│  │设定 │ ──► │选择 │ ──► │预览 │ ──► │生成 │ ──► │质量 │         │
│  │时长 │     │平台 │     │确认 │     │输出 │     │检查 │         │
│  └─────┘     └─────┘     └─────┘     └─────┘     └─────┘         │
│                                                                     │
│       │                              │                    │         │
│       │ 三平台适配                   │  质量标准          │         │
│       │ • 免费本地                   │  • 形象检查        │         │
│       │ • 飞影云服务                │  • 声音检查        │         │
│       │ • 火山引擎                   │  • 内容检查        │         │
│                                                                     │
└─────────────────────────────────────────────────────────────────────┘
```

---

## 步骤详解

### 步骤1：选择/创建人物模板

**目标**：确定数字人的基础人设和定位

**操作流程**：

```
1.1 明确内容定位
    │
    ├─► 视频号内容（老胡说）
    ├─► 平台宣发（OPC虚拟主播）
    └─► 私董会分享（9位成员）

1.2 选择模板类型
    │
    ├─► OPC专属模板（直接使用预设）
    │     • 老胡说模板
    │     • OPC虚拟主播模板
    │     • 王阳明模板
    │     • 曾国藩模板
    │     • 苏轼模板
    │     • 范仲淹模板
    │     • 任正非模板
    │     • 张小龙模板
    │     • 马斯克模板
    │     • 维特根斯坦模板
    │     • 苏格拉底模板
    │
    └─► 全新创建（基于需求定制）
          • 设定人设定位
          • 确定年龄/性别
          • 定义核心特征

1.3 记录模板参数
    • 人物名称
    • 人设定位
    • 基础外观描述
    • 基础声音特征
```

**输出**：
- 选定的人物模板编号/名称
- 基础参数记录表

**检查点**：
- [ ] 人设定位清晰
- [ ] 与内容场景匹配
- [ ] 模板参数记录完整

---

### 步骤2：配置外观

**目标**：生成数字人的视觉效果

**操作流程**：

```
2.1 选择外观风格
    │
    ├─► 从10+预设风格中选择
    │     • 商务精英
    │     • 学术风范
    │     • 科技极客
    │     • 文艺青年
    │     • 国风儒雅
    │     • 休闲自然
    │     • 专业讲师
    │     • 创业先锋
    │     • 政府官员
    │     • 行业大咖
    │     • 运动活力
    │     • 传统工匠
    │
    └─► 自定义外观参数

2.2 构建形象提示词
    │
    └─► 基于风格模板 + 自定义参数
          • 基础描述（性别/年龄/体型）
          • 发型描述
          • 着装描述
          • 配饰描述
          • 表情/姿态描述

2.3 生成形象
    │
    ├─► 使用图像生成工具
    └─► 生成多角度/多表情版本
          • 正面标准照
          • 侧面照
          • 微笑表情
          • 严肃表情
          • 手势姿态
```

**外观配置参数表**：

| 参数类别 | 参数项 | 设置值 | 来源 |
|---------|-------|-------|------|
| 基础属性 | 性别 | [填写] | 模板/自定义 |
| 基础属性 | 年龄 | [填写] | 模板/自定义 |
| 基础属性 | 体型 | [填写] | 模板/自定义 |
| 发型 | 发型类型 | [填写] | 风格模板 |
| 发型 | 发色 | [填写] | 风格模板 |
| 发型 | 长度 | [填写] | 风格模板 |
| 着装 | 服装类型 | [填写] | 风格模板 |
| 着装 | 颜色 | [填写] | 风格模板 |
| 着装 | 风格 | [填写] | 风格模板 |
| 配饰 | 眼镜 | [填写] | 可选 |
| 配饰 | 首饰 | [填写] | 可选 |
| 配饰 | 其他 | [填写] | 可选 |
| 表情 | 默认表情 | [填写] | 风格模板 |
| 表情 | 微笑表情 | [填写] | 备选 |
| 姿态 | 站姿 | [填写] | 可选 |
| 姿态 | 坐姿 | [填写] | 可选 |

**输出**：
- 完整的形象提示词
- 生成的数字人形象图片（多版本）

**检查点**：
- [ ] 形象符合风格定位
- [ ] 相似度≥85%（如基于参考）
- [ ] 无明显失真/穿模
- [ ] 细节清晰（皮肤/头发/眼睛）

---

### 步骤3：配置声音

**目标**：确定数字人的声音特征

**操作流程**：

```
3.1 选择声音方案
    │
    ├─► 预设音色（8种选择）
    │     • 沉稳男声
    │     • 温柔女声
    │     • 活力少年
    │     • 知性女声
    │     • 磁性男声
    │     • 俏皮女生
    │     • 儒雅男声
    │     • 爽朗女声
    │
    └─► 声音克隆（基于参考音频）
          • 准备参考音频（5-30秒）
          • 提取声音特征
          • 生成克隆声音

3.2 调整声音参数
    │
    ├─► 音高（基频）
    ├─► 语速
    ├─► 情感强度
    ├─► 停顿频率
    └─► 重音位置

3.3 测试声音效果
    │
    └─► 生成测试音频
          • 短句测试
          • 确认声音质量
          • 如需调整，返回修改
```

**声音配置参数表**：

| 参数类别 | 参数项 | 设置值 | 说明 |
|---------|-------|-------|------|
| 音色选择 | 预设音色 | [填写] | 8选1 |
| 音色选择 | 参考音频 | [上传] | 如需克隆 |
| 基础参数 | 基频(Hz) | [填写] | 80-400 |
| 基础参数 | 语速(字/分钟) | [填写] | 100-250 |
| 情感参数 | 情感强度 | [填写] | 0.1-1.0 |
| 情感参数 | 停顿频率 | [填写] | 少/中/多 |
| 特殊参数 | 口头禅 | [填写] | 可选 |
| 特殊参数 | 方言元素 | [填写] | 可选 |

**输出**：
- 声音配置参数
- 克隆声音文件（如使用）
- 测试音频文件

**检查点**：
- [ ] 声音清晰无杂音
- [ ] 语速适中可听懂
- [ ] 情感表达自然
- [ ] 与人物设定匹配

---

### 步骤4：配置语言风格

**目标**：确定内容的表达方式和风格

**操作流程**：

```
4.1 选择语言风格
    │
    ├─► 预设风格（6种选择）
    │     • 正式报告
    │     • 轻松聊天
    │     • 学术研讨
    │     • 实战分享
    │     • 幽默脱口
    │     • 故事叙述
    │
    └─► 自定义风格

4.2 设置风格参数
    │
    ├─► 专业术语密度
    ├─► 口语化程度
    ├─► 句式复杂度
    ├─► 互动频率
    └─► 口头禅设定

4.3 准备内容素材
    │
    ├─► 脚本/文案
    ├─► 关键要点
    └─► 互动引导（如需要）
```

**语言风格配置参数表**：

| 参数类别 | 参数项 | 设置值 | 说明 |
|---------|-------|-------|------|
| 风格选择 | 预设风格 | [填写] | 6选1 |
| 句式参数 | 句式长度 | [填写] | 长句/短句/混合 |
| 句式参数 | 复合句比例 | [填写] | 百分比 |
| 用词参数 | 术语密度 | [填写] | 低/中/高 |
| 用词参数 | 口语化程度 | [填写] | 低/中/高 |
| 互动参数 | 互动频率 | [填写] | 少/中/多 |
| 互动参数 | 问句比例 | [填写] | 百分比 |
| 特殊设定 | 口头禅 | [填写] | 自定义 |
| 特殊设定 | 方言元素 | [填写] | 可选 |
| 特殊设定 | 专业术语表 | [填写] | 如需高密度 |

**输出**：
- 语言风格配置参数
- 完整脚本/文案

**检查点**：
- [ ] 风格与场景匹配
- [ ] 术语密度适当
- [ ] 互动设计合理
- [ ] 内容逻辑清晰

---

### 步骤5：选择背景

**目标**：确定视频的背景环境

**操作流程**：

```
5.1 选择背景场景
    │
    ├─► 从15+预设场景中选择
    │     • 办公室
    │     • 实验室
    │     • 书房
    │     • 演播厅
    │     • 城市天际线
    │     • 工厂车间
    │     • 大学讲堂
    │     • 山水意境
    │     • 科技蓝
    │     • 深色商务
    │     • 白板前
    │     • 直播棚
    │     • 会议室
    │     • 户外场景
    │     • 虚拟空间
    │     • 海边日落
    │     • 书店咖啡馆
    │     • 企业大厅
    │
    └─► 自定义背景

5.2 设置背景参数
    │
    ├─► 光照类型
    ├─► 色温
    ├─► 强度
    ├─► 虚实比例
    └─► 品牌元素（如需）

5.3 添加动态效果（可选）
    │
    ├─► 背景动画
    ├─► 粒子效果
    └─► 绿幕抠图
```

**背景配置参数表**：

| 参数类别 | 参数项 | 设置值 | 说明 |
|---------|-------|-------|------|
| 场景选择 | 场景名称 | [填写] | 18选1 |
| 场景选择 | 自定义描述 | [填写] | 如需自定义 |
| 光照参数 | 光照类型 | [填写] | 自然光/灯光/混合 |
| 光照参数 | 色温(K) | [填写] | 2700-10000 |
| 光照参数 | 强度 | [填写] | 低/中/高 |
| 构图参数 | 虚实比例 | [填写] | 前景:背景 |
| 品牌参数 | LOGO | [上传] | 可选 |
| 品牌参数 | 主色调 | [填写] | 可选 |
| 动态参数 | 背景动画 | [填写] | 有/无 |
| 动态参数 | 特效 | [填写] | 可选 |

**输出**：
- 背景场景描述/提示词
- 背景图片/素材
- 光照设置参数

**检查点**：
- [ ] 场景与内容协调
- [ ] 光照效果自然
- [ ] 构图比例合适
- [ ] 无穿帮元素

---

### 步骤6：设定时长

**目标**：确定视频的时长和内容容量

**操作流程**：

```
6.1 选择时长档位
    │
    ├─► 档位1：30秒（快闪/预告/金句）
    │     容量：150-200字
    │
    ├─► 档位2：1分钟（简介/导语/精华）
    │     容量：300-500字
    │
    ├─► 档位3：3分钟（主题分享/轻教程）
    │     容量：800-1200字
    │
    ├─► 档位4：5分钟（深度分享/案例讲解）
    │     容量：1500-2000字
    │
    ├─► 档位5：8分钟（完整课程/长对话）
    │     容量：2500-3500字
    │
    └─► 档位6：15分钟（系统讲解/访谈）
          容量：4000-6000字

6.2 自定义时长（如需）
    │
    ├─► 设置最小值
    └─► 设置最大值
          示例："3-5分钟"或"8-12分钟"

6.3 调整内容适配时长
    │
    ├─► 内容过长 → 精简/分段
    └─► 内容过短 → 扩展/补充
```

**时长配置参数表**：

| 参数类别 | 参数项 | 设置值 | 说明 |
|---------|-------|-------|------|
| 时长设置 | 档位选择 | [填写] | 1-6档 |
| 时长设置 | 精确时长 | [填写] | X分钟 |
| 内容量 | 预计字数 | [填写] | 根据档位 |
| 内容量 | 段落数量 | [填写] | 根据内容 |
| 适配调整 | 内容调整 | [填写] | 如需调整 |

**输出**：
- 确认的时长参数
- 适配后的完整脚本

**检查点**：
- [ ] 时长满足需求
- [ ] 内容完整无截断
- [ ] 节奏把握合理

---

### 步骤7：选择平台

**目标**：确定输出的平台和格式

**操作流程**：

```
7.1 选择输出平台
    │
    ├─► digital-avatar-voice-cloner（免费本地）
    │     • 优势：免费、隐私、可定制
    │     • 限制：需本地环境
    │     • 输出：图片 + 音频
    │
    ├─► 飞影数字人（云服务）
    │     • 优势：在线生成、快速
    │     • 限制：需API Key
    │     • 输出：视频 MP4（1080P）
    │
    └─► 火山引擎（云服务）
          • 优势：高质量、高并发
          • 限制：需API Key+认证
          • 输出：视频 MP4（最高4K）

7.2 配置平台参数
    │
    ├─► API Key设置
    ├─► 分辨率选择
    ├─► 帧率选择
    └─► 输出格式

7.3 准备输入素材
    │
    ├─► 数字人形象（图片）
    ├─► 音频文件（语音）
    └─► 背景素材（如需）
```

**平台配置参数表**：

| 平台 | 配置项 | 设置值 | 说明 |
|------|-------|-------|------|
| digital-avatar | Python环境 | [确认] | 本地环境 |
| digital-avatar | 模型下载 | [确认] | 首次需下载 |
| 飞影数字人 | API Key | [填写] | 云服务凭证 |
| 飞影数字人 | 分辨率 | 1080P | 输出质量 |
| 火山引擎 | API Key | [填写] | 云服务凭证 |
| 火山引擎 | 认证状态 | [确认] | 企业认证 |
| 火山引擎 | 分辨率 | [选择] | 最高4K |
| 火山引擎 | 帧率 | 30/60fps | 流畅度 |

**输出**：
- 选定的平台
- 平台配置参数
- 准备好的输入素材

**检查点**：
- [ ] 平台可用性确认
- [ ] API Key有效（如适用）
- [ ] 输入素材完整

---

### 步骤8：预览确认

**目标**：在正式生成前进行全面检查

**操作流程**：

```
8.1 形象预览
    │
    ├─► 数字人形象清晰度
    ├─► 外观是否符合预期
    ├─► 表情/姿态自然度
    └─► 与背景融合度

8.2 声音预览
    │
    ├─► 语音清晰度
    ├─► 语速/语调
    ├─► 情感表达
    └─► 与形象匹配度

8.3 内容预览
    │
    ├─► 脚本完整性
    ├─► 逻辑流畅性
    ├─► 互动设计
    └─► 时长准确性

8.4 整体预览
    │
    ├─► 形象+声音+背景组合
    ├─► 整体协调性
    └─► 预期效果评估
```

**预览检查清单**：

| 检查维度 | 检查项 | 状态 | 问题备注 |
|---------|-------|------|----------|
| 形象 | 清晰度 | ⬜ | |
| 形象 | 相似度 | ⬜ | |
| 形象 | 无失真 | ⬜ | |
| 声音 | 清晰度 | ⬜ | |
| 声音 | 自然度 | ⬜ | |
| 声音 | 情感表达 | ⬜ | |
| 内容 | 准确性 | ⬜ | |
| 内容 | 完整性 | ⬜ | |
| 内容 | 时长误差 | ⬜ | |
| 整体 | 协调性 | ⬜ | |
| 整体 | 预期效果 | ⬜ | |

**决策点**：
- [ ] 全部检查项通过 → 进入步骤9
- [ ] 有问题 → 返回对应步骤修改

---

### 步骤9：生成输出

**目标**：正式生成数字人视频

**操作流程**：

```
9.1 准备生成参数
    │
    ├─► 汇总所有配置参数
    ├─► 生成配置文件
    └─► 确认素材完整性

9.2 执行生成
    │
    ├─► digital-avatar平台
    │     bash python scripts/create_digital_human.py \
    │       --config ./config.json \
    │       --output ./output/
    │
    ├─► 飞影数字人平台
    │     调用飞影数字人API
    │
    └─► 火山引擎平台
          调用火山引擎API

9.3 监控生成进度
    │
    ├─► 检查生成状态
    ├─► 等待完成通知
    └─► 如遇问题，排查处理

9.4 获取输出文件
    │
    ├─► 下载生成文件
    ├─► 保存到指定目录
    └─► 记录文件信息
```

**配置文件模板**：

```json
{
  "project_name": "[项目名称]",
  "platform": "[平台名称]",
  "persona": {
    "template": "[模板名称]",
    "appearance": {
      "style": "[外观风格]",
      "gender": "[性别]",
      "age": "[年龄]",
      "description": "[详细描述]"
    },
    "voice": {
      "preset": "[预设音色]",
      "pitch": "[音高]",
      "speed": "[语速]",
      "emotion": "[情感强度]",
      "reference_audio": "[参考音频路径]"
    },
    "language": {
      "style": "[语言风格]",
      "terminology_density": "[术语密度]",
      "colloquial_level": "[口语化程度]",
      "catchphrase": "[口头禅]"
    }
  },
  "background": {
    "scene": "[场景名称]",
    "lighting": {
      "type": "[光照类型]",
      "temperature": "[色温]"
    }
  },
  "duration": {
    "preset": "[档位]",
    "exact_minutes": "[精确时长]"
  },
  "output": {
    "format": "[输出格式]",
    "resolution": "[分辨率]",
    "fps": "[帧率]"
  }
}
```

**输出**：
- 数字人视频文件
- 输出清单

---

### 步骤10：质量检查

**目标**：确保输出符合质量标准

**操作流程**：

```
10.1 形象质量检查
     │
     ├─► 清晰度检查（无模糊/噪点）
     ├─► 细节检查（皮肤/眼睛/头发）
     ├─► 自然度检查（无明显失真）
     └─► 与设定匹配度检查

10.2 声音质量检查
     │
     ├─► 清晰度检查（无杂音/失真）
     ├─► 自然度检查（无机械感）
     ├─► 节奏检查（语速/停顿）
     └─► 与形象匹配检查

10.3 内容质量检查
     │
     ├─► 准确性检查（无事实错误）
     ├─► 完整性检查（内容无截断）
     ├─► 逻辑性检查（结构清晰）
     └─► 互动性检查（如适用）

10.4 格式质量检查
     │
     ├─► 分辨率检查（符合要求）
     ├─► 帧率检查（流畅度）
     ├─► 格式检查（标准格式）
     └─► 时长检查（误差±10%）
```

**质量验收标准**：

| 维度 | 检查项 | 合格标准 | 检查方法 | 不合格处理 |
|------|-------|---------|---------|-----------|
| 形象 | 清晰度 | 无模糊/噪点 | 逐帧查看 | 重新生成形象 |
| 形象 | 相似度 | 与描述匹配≥85% | 对比检查 | 调整提示词 |
| 形象 | 细节 | 皮肤/眼睛/头发自然 | 局部放大 | 重新生成 |
| 声音 | 清晰度 | 无杂音/无失真 | 耳机监听 | 重新合成 |
| 声音 | 自然度 | 无机械感/节奏正常 | 整体感受 | 调整参数 |
| 声音 | 同步 | 音画同步 | 视频播放 | 重新合成 |
| 内容 | 准确性 | 无事实错误 | 人工审核 | 修改文案 |
| 内容 | 完整性 | 内容完整无截断 | 全文检查 | 补全内容 |
| 内容 | 时长 | 误差±10% | 时长测量 | 调整语速 |
| 格式 | 分辨率 | 符合要求 | 参数检查 | 重新输出 |
| 格式 | 格式 | 标准格式可播放 | 播放检查 | 转换格式 |

**质量报告模板**：

```
# 数字人视频质量报告

## 项目信息
- 项目名称：[名称]
- 生成平台：[平台]
- 生成时间：[时间]
- 视频时长：[时长]

## 质量检查结果

### 形象质量
| 检查项 | 结果 | 问题描述 |
|--------|------|----------|
| 清晰度 | ✅通过/❌不通过 | |
| 相似度 | ✅通过/❌不通过 | |
| 细节自然度 | ✅通过/❌不通过 | |

### 声音质量
| 检查项 | 结果 | 问题描述 |
|--------|------|----------|
| 清晰度 | ✅通过/❌不通过 | |
| 自然度 | ✅通过/❌不通过 | |
| 音画同步 | ✅通过/❌不通过 | |

### 内容质量
| 检查项 | 结果 | 问题描述 |
|--------|------|----------|
| 准确性 | ✅通过/❌不通过 | |
| 完整性 | ✅通过/❌不通过 | |
| 时长准确性 | ✅通过/❌不通过 | |

### 格式质量
| 检查项 | 结果 | 问题描述 |
|--------|------|----------|
| 分辨率 | ✅通过/❌不通过 | |
| 格式 | ✅通过/❌不通过 | |

## 综合评估
- **整体质量**：✅合格 / ❌需修改
- **问题汇总**：[如有问题，列出]
- **修改建议**：[如需修改，建议]

## 审批意见
- **审批人**：[签字]
- **审批时间**：[时间]
- **意见**：[意见]
```

**最终输出**：
- ✅ 合格视频文件
- ✅ 质量报告
- ✅ 素材归档

---

## 异常处理指南

### 常见问题及解决方案

| 问题类型 | 问题描述 | 可能原因 | 解决方案 |
|---------|---------|---------|----------|
| 形象生成失败 | 无法生成形象 | 提示词过长/描述冲突 | 简化提示词，拆分描述 |
| 声音克隆失败 | 克隆声音失真 | 参考音频质量问题 | 更换参考音频，预处理音频 |
| 视频生成失败 | 平台报错 | API/网络问题 | 检查API Key，重试操作 |
| 质量不达标 | 形象模糊 | 分辨率/模型问题 | 提高分辨率，重新生成 |
| 质量不达标 | 声音机械 | 情感参数过低 | 调整情感强度参数 |
| 内容不完整 | 时长不足 | 内容过少/语速过快 | 补充内容，降低语速 |

---

**版本信息**：v1.0 | 创建日期：2026年5月19日