# 内容分析器设计文档

## 概述

内容分析器是爆款内容仿写技能的核心组件，负责深度分析爆款内容的结构、风格和传播要素。本阶段专注于内容理解而非代码实现，为后续的智能仿写提供理论基础。

## 分析维度

### 1. 基础结构分析
- **内容长度**：字符数、段落数、句子数统计
- **平均句长**：评估阅读难度和节奏
- **段落结构**：单段式、多段论述式、三段式等

### 2. 核心要素提取
- **关键词提取**：使用jieba分词提取核心词汇
- **关键短语**：相邻关键词组合形成有意义的短语
- **核心观点**：识别内容中的主要论点和主张
- **情感倾向**：积极/消极/中性情感分析

### 3. 风格特征识别
- **写作风格**：正式、口语、幽默、专业、情感等
- **句式特点**：长句逗号分隔、冒号列举、疑问句式、感叹句式
- **修辞手法**：排比、比喻、反问、夸张等
- **平台适配**：针对不同平台的内容特征匹配度

### 4. 钩子分析（新增）
识别内容中用于吸引注意力的钩子元素：

| 钩子类型 | 特征词例 | 作用 |
|---------|---------|------|
| 悬念钩子 | 你知道吗/想不到/震惊/秘密 | 引发好奇心 |
| 问题钩子 | 为什么/如何/怎样/什么 | 引发思考 |
| 故事钩子 | 记得/曾经/那天/故事 | 建立情感连接 |
| 数据钩子 | 数据显示/研究表明/据统计 | 增加可信度 |
| 情感钩子 | 泪目/感动/暖心/破防 | 激发情感共鸣 |
| 利益钩子 | 免费/福利/技巧/秘籍 | 提供价值承诺 |

### 5. 节奏分析（新增）
评估内容的阅读流畅度和节奏感：

#### 5.1 句子节奏
- **长度变化**：避免单调，适度的长短句交替
- **理想句长**：20字符左右为最佳阅读长度
- **变化系数**：标准差/平均值，衡量句子长度多样性

#### 5.2 段落节奏
- **段落长度**：理想段落包含3-5个句子
- **结构平衡**：开头、发展、结尾的比例协调
- **过渡自然**：段落间的逻辑衔接

#### 5.3 钩子分布
- **钩子密度**：每5-10句出现一个钩子为佳
- **钩子类型**：多种钩子类型交替使用
- **位置策略**：开头、转折点、结尾的关键位置

#### 5.4 综合节奏评分
计算公式：
```
节奏评分 = 
  长度变化得分 × 0.3 +
  钩子密度得分 × 0.2 +
  情绪变化得分 × 0.2 +
  结构平衡得分 × 0.3
```

### 6. 情绪曲线分析（新增）
追踪内容中的情绪变化轨迹：

#### 6.1 情绪分数计算
- **积极情绪词**：好、优秀、推荐、喜欢、满意、开心、幸福等
- **消极情绪词**：差、糟糕、不推荐、讨厌、失望、伤心、痛苦等
- **加权计算**：考虑情绪词的强度和上下文影响
- **归一化处理**：将情绪分数映射到[-1, 1]区间

#### 6.2 情绪变化分析
- **情绪波动**：相邻句子情绪变化的绝对值之和
- **变化程度**：情绪波动与最大可能波动的比值
- **情绪轨迹**：生成情绪变化曲线数据点

#### 6.3 情绪策略识别
- **情绪引导**：如何通过情绪变化引导读者
- **情感共鸣**：情绪高点与内容关键点的对应关系
- **情绪恢复**：消极情绪后的积极转向策略

## 分析方法

### 1. 文本预处理
- 句子分割：基于标点符号（。！？!?）分割
- 段落识别：基于换行符分割
- 中文分词：使用jieba进行准确分词

### 2. 模式匹配
- 正则表达式匹配结构模式
- 关键词词库匹配风格特征
- 平台特征词匹配适配度

### 3. 统计分析
- 词频统计提取关键词
- 长度统计分析节奏
- 变化系数评估多样性

### 4. 情感计算
- 基于情感词库的情绪评分
- 考虑上下文的情感加权
- 平滑处理的情绪曲线

## 输出格式

### JSON数据结构
```json
{
  "基础信息": {
    "标题": "字符串",
    "平台": "字符串",
    "内容长度": 整数,
    "分析时间": "时间戳"
  },
  "结构分析": {
    "结构类型": "字符串",
    "段落数": 整数,
    "句子数": 整数,
    "平均句长": 浮点数
  },
  "核心要素": {
    "关键词": ["字符串列表"],
    "关键短语": ["字符串列表"],
    "核心观点": ["字符串列表"],
    "情感倾向": "字符串",
    "目标受众": "字符串"
  },
  "风格特征": {
    "写作风格": "字符串",
    "句式特点": ["字符串列表"],
    "修辞手法": ["字符串列表"],
    "平台适配度": 浮点数
  },
  "钩子分析": {
    "检测到的钩子": ["字符串列表"],
    "钩子数量": 整数,
    "钩子密度": 浮点数
  },
  "节奏分析": {
    "节奏评分": 浮点数,
    "句子长度变化": 浮点数,
    "段落结构平衡": 浮点数,
    "钩子分布密度": 浮点数,
    "情绪变化程度": 浮点数,
    "详细数据": {
      "句子长度列表": [整数列表],
      "段落句子数": [整数列表],
      "节奏得分细分": {
        "长度得分": 浮点数,
        "变化得分": 浮点数,
        "钩子得分": 浮点数,
        "情绪得分": 浮点数,
        "结构得分": 浮点数
      }
    }
  },
  "情绪曲线": {
    "数据点": [浮点数列表],
    "情绪变化": 浮点数,
    "情绪高点": 整数,
    "情绪低点": 整数
  },
  "仿写建议": ["字符串列表"]
}
```

## 应用场景

### 1. 内容诊断
- 识别内容的结构问题
- 评估节奏的流畅程度
- 分析情绪引导效果

### 2. 仿写参考
- 提取可模仿的结构模式
- 学习有效的钩子使用
- 掌握情绪变化技巧

### 3. 质量评估
- 评估内容的节奏质量
- 分析情绪引导的合理性
- 检查钩子使用的有效性

### 4. 优化指导
- 提供具体的改进建议
- 推荐合适的仿写策略
- 指导平台适配调整

## 设计原则

### 1. 可解释性
- 所有分析结果都有明确的依据
- 评分标准透明可理解
- 建议具体可操作

### 2. 实用性
- 分析结果直接支持仿写决策
- 提供具体的改进方向
- 考虑不同平台的特殊性

### 3. 扩展性
- 支持新的分析维度添加
- 可调整的分析参数
- 模块化的分析方法

### 4. 准确性
- 基于实际数据的统计分析
- 考虑中文语言特性
- 避免过度简化复杂现象

## 后续开发方向

### 短期优化
1. 增加更多钩子类型识别
2. 优化情绪词库的覆盖范围
3. 改进节奏评分的算法

### 中期扩展
1. 加入视觉元素分析（如有）
2. 支持多语言内容分析
3. 集成机器学习方法

### 长期愿景
1. 实时内容优化建议
2. 个性化仿写风格学习
3. 跨平台内容智能适配

## 使用说明

### 作为OpenClaw技能组件
本分析器设计作为爆款内容仿写技能的分析阶段组件，不直接作为独立脚本运行，而是通过以下方式集成：

1. **分析请求触发**：用户请求内容分析时自动调用
2. **结果存储**：分析结果存入技能上下文
3. **仿写参考**：为后续仿写阶段提供结构化参考
4. **质量评估**：作为仿写质量评估的基准

### 输出集成
分析结果将集成到技能的整体输出中：
- 在分析报告中显示关键指标
- 在仿写建议中引用分析发现
- 在质量评估中作为对比基准
- 在学习记录中保存分析模式

---

*本文档描述了内容分析阶段的设计思路和分析方法，为爆款内容仿写技能提供理论基础。实际实现时可根据具体技术栈和需求进行调整。*