正态性检验

  • 正态性检验用于分析数据是否呈现出正态性特质。

    分析项 正态性检验说明
    购买意愿 样本的购买意愿情况是否符合正态性特质呢?
  • 正态性特质是很多分析方法的基础前提,如果不满足正态性特质,则应该选择其它的分析方法,SPSSAU将常见的分析方法正态性特质要求归纳如下表(包括分析方法,以及需要满足正态性的分析项,如果不满足时应该使用的分析方法):

    分析方法 说明 正态性条件 如果不满足,分析方法使用 备注
    方差分析 X对于Y的差异 Y需要满足正态性 非参数检验 可考虑对Y进行生成变量转换,比如开根号,自然对数等;希望数据满足正态性
    相关分析 分析项相关关系情况 分析项均需要正态性 如果满足,使用Pearson相关系数,如果不满足使用Spearman相关系数 如果不满足正态性,则使用Spearman相关系数

    分析结果如下:

    名称 样本量 Kolmogorov-Smirnov检验 Shapiro-Wilk检验
    统计量 p 统计量 p
    购买意愿 17402 0.268 0.000** 0.868 0.000**
    * p <0.05 ** p <0.01
    • 特别提示
    • 可直接使用“直方图”直观展示数据正态性情况。

    • 1:如果样本量大于50,则应该使用Kolmogorov-Smirnov检验结果,反之则使用Shapiro-Wilk检验的结果。

    • 2:如果p 值大于0.05,则说明具有正态性特质,反之则说明数据没有正态性特质。

    • 3:如果是问卷研究,数据很难满足正态性特质,而实际研究中却也很少使用 不满足正态性分析时的分析方法,SPSSAU认为有以下三点原因:

    • 参数检验的检验效能高于非参数检验,比如方差分析为参数检验,所以很多时候即使数据不满足正态性要求也使用方差分析

    • 如果使用非参数检验,呈现出差异性,则需要对比具体对比差异性(但是非参数检验的差异性不能直接用平均值描述,这与实际分析需求相悖,因此有时即使数据不正态,也不使用非参数检验,或者Spearman相关系数等)

    • 理想状态下数据会呈现出正态性特质,但这仅会出现在理想状态,现实中的数据很难出现正态性特质(尤其是比如问卷数据)【可直接使用“直方图”直观展示数据正态性情况】。

    SPSSAU操作截图如下:

疑难解惑

  • 直方图和正态性检验结果矛盾?
  • 检验数据是否正态分布有很多种方法,图示法,统计检验法,还有描述法等。统计检验法对于数据的要求最为严格,而实际数据由于样本不足等原因,即使数据总体正态但统计检验出来也显示非正态,因而一般情况下使用图示法相对较多,只要正态性情况在一定可接受范围内即可。

  • 除此之外,也可以对数据取对数,开根号等(数据处理->生成变量),然后对新数据再次检验正态性。一般来说取对数,开根号等处理只会改变数据的相对值,而数据的相对意义并不会改变,因此如果使用取对数等方法让数据更‘正态’,是科学合理的做法。

  • 另外,正态性检验要求严格通常无法满足,如果峰度绝对值小于10并且偏度绝对值小于3,则说明数据虽然不是绝对正态,但基本可接受为正态分布。

  • 不满足正态性分析?
  • 理论上很多研究方法,比如线性回归,方差分析,均需要满足正态性分布要求,但理论上的正态分布数据在实际研究中很难满足。因此类似正态的数据也可以接受。正态性检验有很多方法,统计检验法相对最为严格,也可使用【可视化->正态分析图,PP/QQ图】进行正态性检验,用图示法可直观查看数据正态性情况,接近正态性的数据即可进行相应研究分析

  • 另外,正态性检验要求严格通常无法满足,如果峰度绝对值小于10并且偏度绝对值小于3,则说明数据虽然不是绝对正态,但基本可接受为正态分布。

  • Jarque–Bera检验是什么?
  • 除常用的Kolmogorov-Smirnov检验和Shapiro-Wilk检验外,Jarque–Bera检验也是一种正态性检验的方法,其原理是基于峰度和偏度进行计算检验。参考文献如下:J. B. Cromwell, W. C. Labys and M. Terraza (1994): Univariate Tests for Time Series Models, Sage, Thousand Oaks, CA, pages 20--22.

  • SPSSAU进行分组数据正态检验?
  • 如果进行正态性检验时希望分组进行,比如区分男女分别的身高正态性,此时将分组项放入对应‘分析框’中即可。与此同时,也可以分别筛选出男或女,然后再进行正态性检验。

  • SPSSAU正态性检验结果与SPSS不一致?
  • 如果样本量为100,分析标题为3个(分别是A、B和C),但其中1项比如A有部分缺失,比如缺失1个其有效样本量为99个。此时SPSSAU分析时A以99个样本为准,B和C依旧以100个为准。上述为SPSSAU的算法规则。在SPSS软件中其默认算法规则是A、B和C三个标题均以99个样本为准进行分析。