正态性检验用于分析数据是否呈现出正态性特质。
分析项 | 正态性检验说明 |
---|---|
购买意愿 | 样本的购买意愿情况是否符合正态性特质呢? |
正态性特质是很多分析方法的基础前提,如果不满足正态性特质,则应该选择其它的分析方法,SPSSAU将常见的分析方法正态性特质要求归纳如下表(包括分析方法,以及需要满足正态性的分析项,如果不满足时应该使用的分析方法):
分析方法 | 说明 | 正态性条件 | 如果不满足,分析方法使用 | 备注 |
---|---|---|---|---|
方差分析 | X对于Y的差异 | Y需要满足正态性 | 非参数检验 | 可考虑对Y进行生成变量转换,比如开根号,自然对数等;希望数据满足正态性 |
相关分析 | 分析项相关关系情况 | 分析项均需要正态性 | 如果满足,使用Pearson相关系数,如果不满足使用Spearman相关系数 | 如果不满足正态性,则使用Spearman相关系数 |
名称 | 样本量 | Kolmogorov-Smirnov检验 | Shapiro-Wilk检验 | ||
统计量 | p | 统计量 | p | ||
购买意愿 | 17402 | 0.268 | 0.000** | 0.868 | 0.000** |
* p <0.05 ** p <0.01 |
可直接使用“直方图”直观展示数据正态性情况。
1:如果样本量大于50,则应该使用Kolmogorov-Smirnov检验结果,反之则使用Shapiro-Wilk检验的结果。
2:如果p 值大于0.05,则说明具有正态性特质,反之则说明数据没有正态性特质。
3:如果是问卷研究,数据很难满足正态性特质,而实际研究中却也很少使用 不满足正态性分析时的分析方法,SPSSAU认为有以下三点原因:
参数检验的检验效能高于非参数检验,比如方差分析为参数检验,所以很多时候即使数据不满足正态性要求也使用方差分析
如果使用非参数检验,呈现出差异性,则需要对比具体对比差异性(但是非参数检验的差异性不能直接用平均值描述,这与实际分析需求相悖,因此有时即使数据不正态,也不使用非参数检验,或者Spearman相关系数等)
理想状态下数据会呈现出正态性特质,但这仅会出现在理想状态,现实中的数据很难出现正态性特质(尤其是比如问卷数据)【可直接使用“直方图”直观展示数据正态性情况】。
检验数据是否正态分布有很多种方法,图示法,统计检验法,还有描述法等。统计检验法对于数据的要求最为严格,而实际数据由于样本不足等原因,即使数据总体正态但统计检验出来也显示非正态,因而一般情况下使用图示法相对较多,只要正态性情况在一定可接受范围内即可。
除此之外,也可以对数据取对数,开根号等(数据处理->生成变量),然后对新数据再次检验正态性。一般来说取对数,开根号等处理只会改变数据的相对值,而数据的相对意义并不会改变,因此如果使用取对数等方法让数据更‘正态’,是科学合理的做法。
另外,正态性检验要求严格通常无法满足,如果峰度绝对值小于10并且偏度绝对值小于3,则说明数据虽然不是绝对正态,但基本可接受为正态分布。
理论上很多研究方法,比如线性回归,方差分析,均需要满足正态性分布要求,但理论上的正态分布数据在实际研究中很难满足。因此类似正态的数据也可以接受。正态性检验有很多方法,统计检验法相对最为严格,也可使用【可视化->正态分析图,PP/QQ图】进行正态性检验,用图示法可直观查看数据正态性情况,接近正态性的数据即可进行相应研究分析
另外,正态性检验要求严格通常无法满足,如果峰度绝对值小于10并且偏度绝对值小于3,则说明数据虽然不是绝对正态,但基本可接受为正态分布。
除常用的Kolmogorov-Smirnov检验和Shapiro-Wilk检验外,Jarque–Bera检验也是一种正态性检验的方法,其原理是基于峰度和偏度进行计算检验。参考文献如下:J. B. Cromwell, W. C. Labys and M. Terraza (1994): Univariate Tests for Time Series Models, Sage, Thousand Oaks, CA, pages 20--22.
如果进行正态性检验时希望分组进行,比如区分男女分别的身高正态性,此时将分组项放入对应‘分析框’中即可。与此同时,也可以分别筛选出男或女,然后再进行正态性检验。
如果样本量为100,分析标题为3个(分别是A、B和C),但其中1项比如A有部分缺失,比如缺失1个其有效样本量为99个。此时SPSSAU分析时A以99个样本为准,B和C依旧以100个为准。上述为SPSSAU的算法规则。在SPSS软件中其默认算法规则是A、B和C三个标题均以99个样本为准进行分析。