# DMP用户画像分析框架

本文档说明分析方法、质量标准和数据处理原则。

**注：具体算法细节请参考脚本代码实现。**

---

## 数据预处理原则

### 性别分布验证

性别数据在分析中的作用：

- **性别均衡**（差距 < 15%）→ 用户群体性别无明显特征，不单独强调
- **性别不均衡**（差距 ≥ 15%）→ 明确标注主导性别，确保特征与性别逻辑一致

系统自动检查性别与其他属性（年龄、消费、兴趣）的逻辑一致性，避免矛盾结论。

### 逻辑一致性原则

系统在分析中遵循以下原则确保数据逻辑合理：

**属性匹配性：**
- 年龄与消费能力、职业应该相互匹配
- 婚育状态与家庭消费偏好应该一致
- 收入水平与品类偏好应该相符

**角色区分：**
- 区分用户作为"生产者"和"消费者"的身份
- 在分析中聚焦与核心目标相关的角色
- 避免混淆"生产特征"与"消费特征"

**数据去重：**
- 排除逻辑互斥的特征（如"单身"与"已婚"同时出现）
- 移除无区分度的标签（与平均水平差异 < 10%）
- 保留最具代表性的核心特征

---

## 核心特征筛选原则

系统采用多步骤特征筛选确保输出的特征都是有代表性的：

### 筛选标准（三步法 v7.0 - 严格格式要求）

#### **第一步：集中度筛选（TGI ≥ 1.0）**
```
规则：保留 TGI ≥ 1.0 的特征，排除 TGI < 1.0 的特征
目的：识别高于平均水平的有效特征

输出格式：
  原始特征列表：[TGI: x1, x2, x3, ...]
  筛选规则说明
  筛选结果统计：有效特征数 / 总特征数 = 占比%
  
示例：
  原始：56条  →  筛选后：8条 TGI ≥ 1.0  →  占比：14.3%
```

#### **第二步：维度内排序（按 TGI 降序）**
```
主排序规则：按 TGI 从高到低排列
次排序规则：相同 TGI 时，按占比从高到低排列

输出格式（表格形式）：
  排名 | 特征名称 | TGI | 占比 | 说明
  -----|---------|-----|------|--------
  1    | A       | 1.15| X%  | 最高TGI
  2    | B       | 1.13| Y%  |
  ...  | ...     | ... | ... | ...

说明列标注：
  - 最高/最低TGI
  - 并列特征
  - 超强势/强势/普通等相对评价
```

#### **第三步：精准度截取（动态阈值）**
```
阈值公式（维度大小分类）：

  小维度（<20条有效特征）：max(int(count * 0.4), 5)
  中维度（20-50条有效特征）：int(count * 0.4)
  大维度（>50条有效特征）：min(int(count * 0.4), 20)

输出格式：
  维度大小：xxx条有效特征（属于小/中/大维度）
  
  动态阈值计算：
    公式：max/int/min(int(count * 0.4), x)
    计算过程：xxx * 0.4 = yyy  →  取值 = zzz
    
  核心特征数：n条
  
  核心特征最终列表：
    1. A    TGI: 1.15  ✓ 入选
    2. B    TGI: 1.13  ✓ 入选
    ...
    
  潜力特征（未入选但高相关）：
    n+1. X  TGI: 1.10  △ 补充
    ...
```

### 报告输出规范

**各维度分析必须包含以下三步的完整呈现**：

1. ✅ **第一步结果**
   - 原始特征数
   - 有效特征数（TGI ≥ 1.0）
   - 筛选比例统计

2. ✅ **第二步结果**
   - 维度内排序表格
   - 排名从1到N
   - 标注特征特点（最强、次强、并列等）

3. ✅ **第三步结果**
   - 动态阈值的完整计算过程
   - 核心特征数量确定
   - 分别列出核心特征和潜力特征

### 标准呈现示例

```markdown
## 维度名称分析

### 第一步：筛选 TGI ≥ 1.0 的特征
[说明原始数据、筛选过程、结果统计]

### 第二步：按 TGI 降序排名
[表格呈现，包含排名、特征、TGI、占比、说明]

### 第三步：取前 40% 的特征（动态阈值）
[计算过程、阈值公式、最终核心特征数]

**核心特征最终列表**：
[分别列出核心特征和潜力特征]
```

### 特征筛选原则

**并列特征识别：**
如果多个特征在 TGI 和占比上都很接近，系统会将其识别为并列核心特征，在报告中一起展示。

**排除规则：**
- 排除逻辑互斥的特征（如"单身"和"已婚"不能同时出现）
- 排除无区分度的特征（与平均水平差异太小）
- 只保留最具代表性的特征

---

## 四层结构用户画像

系统输出的用户画像遵循四层结构：

### 第一层：角色定位
用 1-2 个精炼的商业化标签定义用户核心身份。

**示例：** 品质生活追求者

### 第二层：价值观洞察
揭示用户的核心动机与生活态度。

**示例：** 注重家庭与自我提升的平衡，追求有品质的生活方式

### 第三层：行为模式
描述可数据捕捉的商业触达行为。

**示例：** 通过专业平台获取知识，在电商平台比价后购买高性价比产品

### 第四层：特征支撑
用关键数据验证前三层结论。

**示例：**
- 年龄 30-40 岁占比 45% (TGI=1.8)
- 已婚已育占比 60% (TGI=2.1)
- 月收入 1-2 万占比 38% (TGI=1.6)

---

## 质量保证机制

### 数据一致性检查

系统确保以下三个方面的一致性：

1. **画像与分析一致**
   - 画像中的每个标签都在详细分析中有支撑
   - 详细分析的核心特征都体现在画像中

2. **策略与特征匹配**
   - 产品定位基于核心特征
   - 渠道策略匹配应用偏好
   - 内容策略对应兴趣偏好

3. **地域建议与数据对应**
   - 推荐省份是 TGI 高且占比大的地区
   - 潜力城市是 TGI 高但占比适中的城市
   - 减少投入地区是 TGI < 1 的区域

### 数据完整性原则

- ✅ 仅基于现有数据得出结论
- ✅ 明确标注"数据缺失"的维度
- ❌ 不臆测缺失维度
- ❌ 不推断未提供的信息

---

## 数据要求

### 最低配置
- 至少 3 个数据维度
- 每个维度至少 5 个标签
- 必须包含 TGI 和占比字段

### 推荐配置（标准）
- 7-10 个数据维度
- 每个维度 10-30 个标签
- 包含一级、二级标签层级

### 标准维度列表
```
人口属性（年龄、性别、婚育、教育）
地域分布（省份、城市、地区）
收入与职业（收入等级、职业类型）
消费特征（消费能力、品类偏好）
兴趣偏好（显性兴趣、隐性兴趣）
应用偏好（APP 使用、平台选择）
其他维度（场景、手机品牌等）
```

---

## 关键指标说明

### TGI（Target Group Index）
**定义：** 目标群体指数，反映某特征在目标群体中的集中度

**解读标准：**
- TGI > 1.0 → 高于平均水平，具备区分价值 ✓
- TGI = 1.0 → 平均水平，无区分度 ✗
- TGI < 1.0 → 低于平均水平，无代表性 ✗

### 占比（Coverage）
**定义：** 某特征在目标群体中的百分比

**用途：** 衡量特征的覆盖范围（谁多谁少）

### 核心特征判定
一个特征被列为核心特征需要满足：
1. TGI ≥ 1（集中度合格）
2. 维度内占比排名前 40%（覆盖度合格）
3. 符合逻辑一致性检查（无矛盾）

---

## 最佳实践

### 常见错误与避免

| 错误 | 现象 | 解决方案 |
|------|------|--------|
| 维度不足 | 画像简单、不立体 | 补充 2-3 个维度 |
| 忽视 TGI | 仅看占比大小 | TGI + 占比结合使用 |
| 矛盾特征 | 画像中有互斥标签 | 严格执行逻辑检查 |
| 臆测数据 | 对缺失维度推断 | 明确标注数据缺失 |

### 输出优化建议

**用户画像：**
- 保持简洁（一句话不超过 50 字）
- 使用商业化语言
- 突出可执行的洞察

**策略建议：**
- 具体可落地，避免空泛
- 标注优先级（高/中/低）
- 提供执行路径

**深度分析方向：**
- 推荐 2-3 个单维度深挖方向
- 推荐 3-5 组高价值交叉组合
- 说明每个方向的商业价值