Smart Data Analyzer

智能数据分析助手,支持CSV/JSON/Excel导入,进行预处理、统计分析、可视化和趋势洞察,生成专业报告,无需编程。

MIT-0 · Free to use, modify, and redistribute. No attribution required.
0 · 34 · 0 current installs · 0 all-time installs
MIT-0
Security Scan
VirusTotalVirusTotal
Benign
View report →
OpenClawOpenClaw
Benign
high confidence
Purpose & Capability
The name, description, and SKILL.md consistently describe a local data analysis assistant that reads CSV/JSON/Excel files, runs pandas-based preprocessing, statistics, and visualization. Declared dependencies (Python, pandas, numpy, matplotlib/seaborn) match the stated functionality. One caveat: the skill's Source/Homepage are unknown (no install/spec or code files), so provenance cannot be independently verified.
Instruction Scope
Runtime instructions are explicit and narrowly scoped to reading user-specified data files, performing preprocessing/analysis, and producing reports. The SKILL.md contains concrete pandas examples that read files by path (e.g., pd.read_csv('/path/to/data.csv')). It does not instruct broad system scanning, reading unrelated system config, or exfiltrating data to external endpoints. Note: because it reads arbitrary file paths supplied by the user, a user could accidentally ask it to analyze sensitive local files — that is user-driven, not implicit behavior in the skill.
Install Mechanism
This is an instruction-only skill with no install spec and no code files, so nothing is written to disk by the skill itself. Dependencies are standard Python libraries; installing them is a normal operational concern but not performed by the skill per the package metadata.
Credentials
The skill requests no environment variables, no credentials, and no config paths. This is proportionate for a local data analysis helper. There are no unexplained secret requests.
Persistence & Privilege
The skill does not request persistent presence (always:false) and does not declare actions that modify other skills or system-wide settings. It relies on user-provided file paths and runs analysis on demand.
Assessment
This skill appears internally consistent for local data analysis, but take these practical precautions before installing or using it: - Provenance: there is no source repo or homepage listed. If you care about supply-chain trust, ask the publisher for source code or a verified distribution before using it on sensitive data. - File safety: the skill reads files you point it to. Do not ask it to open system or credential files (for example /etc/passwd, ~/.ssh, credential stores) unless you intentionally want those analyzed. - Execution environment: because it relies on Python libs, run analysis in a controlled environment (virtualenv, container, or sandbox) to limit risk from malformed files or untrusted dependencies. - Data handling claims: SKILL.md claims all analysis is local and data is not uploaded, but this is a behavioral promise not enforced by the metadata. If you need guarantees, request an auditable implementation or run the examples locally yourself. - Dependency installation: install pandas/numpy/matplotlib from official package sources (PyPI or your distro repositories) and keep them updated. If you need higher assurance, ask the publisher for the code or a signed release, or prefer a skill with a verifiable source/homepage.

Like a lobster shell, security has layers — review code before you run it.

Current versionv1.0.0
Download zip
analysisvk971weckzykft0v5fnx1k0k6ms83r1jcdatavk971weckzykft0v5fnx1k0k6ms83r1jclatestvk971weckzykft0v5fnx1k0k6ms83r1jcproductivityvk971weckzykft0v5fnx1k0k6ms83r1jc

License

MIT-0
Free to use, modify, and redistribute. No attribution required.

SKILL.md

Data Analyzer - 智能数据分析助手

描述

强大的数据分析skill,帮助用户从各种数据源中提取洞察、生成报告、发现趋势。无需编程知识,用自然语言即可完成专业数据分析。

何时使用

当用户需要:

  • 分析CSV/JSON/Excel数据文件
  • 发现数据中的趋势和模式
  • 生成数据报告和可视化
  • 获得数据驱动的洞察和建议

核心能力

1. 数据导入与预处理

支持多种数据格式:

  • CSV文件:自动识别分隔符、编码
  • JSON文件:支持嵌套结构解析
  • Excel文件:支持.xlsx/.xls格式
  • 文本数据:智能解析表格格式

数据清洗功能:

  • 处理缺失值
  • 去除重复数据
  • 数据类型转换
  • 异常值检测

2. 统计分析

描述性统计

  • 均值、中位数、众数
  • 标准差、方差
  • 最大值、最小值
  • 分位数分析

相关性分析

  • Pearson相关系数
  • 变量关系可视化
  • 相关性矩阵

分组分析

  • 按类别分组统计
  • 对比分析
  • 趋势分析

3. 可视化生成

生成专业的数据可视化:

  • 📊 柱状图:类别对比
  • 📈 折线图:趋势变化
  • 🥧 饼图:占比分析
  • 📉 散点图:关系分析
  • 🗺️ 热力图:数据分布

4. 智能洞察

AI驱动的数据分析:

  • 自动发现异常模式
  • 识别关键趋势
  • 生成自然语言报告
  • 提供行动建议

使用方法

基础分析

请帮我分析这个CSV文件:/path/to/sales.csv

我会:

  1. 读取并解析文件
  2. 展示数据概览
  3. 进行统计分析
  4. 生成可视化建议
  5. 提供关键洞察

对比分析

对比分析两个季度的销售数据

我会:

  1. 加载两个数据集
  2. 计算差异
  3. 识别变化趋势
  4. 生成对比报告

趋势预测

分析用户增长趋势并预测未来3个月

我会:

  1. 分析历史趋势
  2. 识别增长模式
  3. 进行简单预测
  4. 提供建议

工作流程

Step 1: 数据导入

# 使用Python的pandas读取数据
import pandas as pd

# 自动识别文件类型
df = pd.read_csv('/path/to/data.csv')
# 或
df = pd.read_excel('/path/to/data.xlsx')
# 或
df = pd.read_json('/path/to/data.json')

Step 2: 数据概览

## 📊 数据概览

- **行数**:10,000
- **列数**:15
- **缺失值**:23个(0.015%)
- **重复行**:0个

### 列信息
| 列名 | 数据类型 | 非空数量 | 示例值 |
|:---|:---|:---|:---|
| user_id | 整数 | 10,000 | 10023 |
| name | 文本 | 10,000 | "张三" |
| amount | 浮点数 | 9,977 | 158.50 |
| date | 日期 | 10,000 | 2024-01-15 |

Step 3: 统计分析

## 📈 统计分析

### 数值型变量
| 变量 | 均值 | 中位数 | 标准差 | 最小值 | 最大值 |
|:---|:---:|:---:|:---:|:---:|:---:|
| amount | ¥234.56 | ¥180.00 | ¥156.78 | ¥10.00 | ¥2,500.00 |
| quantity | 3.2 | 3 | 1.8 | 1 | 15 |

### 类别型变量
| 变量 | 唯一值数量 | 最常见值 | 占比 |
|:---|:---:|:---|:---:|
| category | 5 | 电子产品 | 35% |
| region | 8 | 华东 | 28% |

Step 4: 智能洞察

## 💡 关键洞察

### 1. 销售趋势 📈
- 整体呈上升趋势,月均增长12%
- 周末销售高于工作日23%
- 电子产品类别贡献最大利润

### 2. 用户行为 👥
- 平均客单价¥234.56
- 回购率35%,高于行业平均
- 高价值用户(top 10%)贡献60%营收

### 3. 异常发现 ⚠️
- 2月15日出现销售低谷(可能是系统故障)
- 华北地区退货率偏高(15%)
- 部分商品价格异常(建议核查)

### 4. 建议行动 ✅
- 增加周末促销活动
- 优化华北地区物流
- 调查退货原因并改进
- 重点维护高价值用户

高级功能

自定义分析

分析用户年龄段分布,并生成可视化报告

我会执行:

# 年龄分组
df['age_group'] = pd.cut(df['age'], 
                         bins=[0, 18, 25, 35, 45, 55, 100],
                         labels=['未成年', '18-25', '26-35', '36-45', '46-55', '55+'])

# 统计各年龄段
age_stats = df.groupby('age_group').agg({
    'user_id': 'count',
    'amount': 'mean'
}).round(2)

时间序列分析

分析销售数据的季节性模式

我会:

  1. 按时间排序数据
  2. 识别周期性模式
  3. 计算移动平均
  4. 预测未来趋势

相关性探索

找出影响销售额的关键因素

我会:

  1. 计算各变量与销售额的相关性
  2. 识别最强关联因素
  3. 生成相关性矩阵
  4. 提供优化建议

输出示例

分析报告格式

# 📊 数据分析报告

生成时间:2024-03-29
数据范围:2024-01-01 至 2024-03-31

## 执行摘要

本报告分析了Q1销售数据,发现以下关键发现:
- 总销售额增长23%
- 用户满意度提升至4.5/5
- 退货率下降至8%

## 详细分析

[详细的数据分析内容...]

## 可视化

[生成的图表和可视化...]

## 建议

[基于数据的行动建议...]

## 附录

[技术细节和方法说明...]

技术要求

依赖

  • Python 3.8+
  • pandas
  • numpy
  • matplotlib/seaborn(可选,用于可视化)

文件处理

  • 支持读取本地文件
  • 支持处理大文件(分块读取)
  • 自动处理编码问题

定价模式

免费功能

  • 基础统计分析
  • 简单可视化
  • 基本洞察生成

付费功能(可选升级)

  • 高级预测模型
  • 自定义分析模板
  • 批量处理
  • API接入

注意事项

  1. 数据安全:所有分析在本地进行,数据不上传
  2. 隐私保护:不存储用户数据
  3. 性能限制:大文件(>100MB)可能需要较长时间
  4. 准确性:洞察基于统计方法,仅供参考

Data Analyzer v1.0 - 让数据说话,让分析简单

Files

1 total
Select a file
Select a file to preview.

Comments

Loading comments…