当前位置:范文城>校园范本>其他>

正态分布图在数据分析中的应用例子

其他 阅读(1.08W)

当我们面对一堆庞大的数据,且需要从中寻找某种规律时,往往不知如何下手。最近我在处理油耗数据时,就碰到了这样的难题,偶然间记得概率统计中存在一种比较特殊的数据分布方式,即所谓的正态分布

正态分布图在数据分析中的应用例子

从维基百科中搜到的结果是“正态分布是自然科学与行为科学中的定量现象的一个方便模型。各种各样的心理学测试分数和物理现象比如光子 计数都被发现近似地服从常态分布。尽管这些现象的根本原因经常是未知的, 理论上可以证明如果把许多小作用加起来看做一个变量,那么这个变量服从正态分布”,如

图1

既然这样,那我何不验证一下呢?进一步阅读相关文章后,对概率统计方法的相关要求和步骤有了初步的了解,为便于了解,用图2来表示推断过程

在总体数据量不大的情况下,我倾向于用总体做为分析依据,以减少样本抽取的误差

在上图所示四步中,用统计工具进行分析的过程是最需引起重视的,大概有两点:

1.对总体(或样本)数据的分组。由于油耗属于连续型变量,不同变量之间的变化非常小,我采用较多数组的组距分组方式

2.求平均值。数据分布不同,平均值的计算方法也有不同,最常用的是算术平均值,在呈正态分布的`数据中,它与中位数(Median)和众数(Mode)的计算结果基本一致,且概率密度函数(Normdist)也是默认算术平均值的计算方式

实际操作一遍:

1.准备统计数据

2.求中间参数值

3.求频率(Frequency)和概率(Normdist)

4.用第3步的函数计算结果分别作柱形图和折线图

5.客观推论最后得下图

推论之一:上图数据分布的趋势比较明显,油耗值趋向于柱形最高的区域集中,且波动范围较小,说明对应车辆的油耗比较稳定