异常值,也称离群值,是指样本中的个别值,其数值明显偏离所属样本的绝大部分观测值。如果数据中有异常值,比如常见情况下中年男性身高均介于1.6~2.0米之间;但有个别数据为1.3,也或者2.2米;显然这种数据较为异常,很可能会干扰研究;也或者数据本身确定应该介于1~5之间,但是出现数字0;此时也应该进行异常值处理。
不论什么研究数据,如果数据中存在可能的异常值,均应在分析之前处理,防止异常值带来的干扰,比如异常值会扭曲X和Y之间的相关关系,回归关系等,异常错误的结论;当然其它研究方法基本均会受到异常值的干扰,异常值较多或者异常稍大时,此时会直接扭曲结论。如下说明:
上图展示X和Y的散点关系,可能明显的看出,X和Y之间有着非常紧密的关系,X增大,Y也增大。上图中也没有异常数据;但如果数据中出现一个异常值,则很可能扭曲数据间的关系,如下图所示:
上图中出现一个异常值,直接导致本应该为非常紧密的正相关关系,出现扭曲的结论,而且直接改变了数据间的相关关系系数;因而最终导致完全错误的结论。
在相关,回归分析,以及比如方差,t 检验等等研究时,均会受到异常值的干扰,只要有异常值存在,则均会或多或少的影响到数据结论;严重的情况即为将关系扭曲,不严重的时候也会影响到各类指标结果等,因而需要认真地对待异常值。
针对异常值,常见的步骤有三步:第一步是异常值检测;第二步是异常值判定;第三步是异常值处理。
异常值的检验有很多种方法,最常见的是图示法,也有使用分析方法进行探索,如下说明。
箱线图:实验研究时经常使用,非常直观的展示出异常数据;
散点图:研究X和Y的关系时,可直观展示查看是否有异常数据;
描述分析:可通过最大最小值等各类指标大致判断数据是否有异常;
其它:比如结合正态分布图,频数分析等判断是否有异常值。
上述已经说明异常值会带来严重的影响,扭曲数据结论等。那么首先需要设定异常值的标准,然后再对其进行处理。异常值的判定标准并不统一,更多是通过人为标准进行设定,SPSSAU提供以下几类判定规则:
缺失数字
小于设定标准的数字
大于设定标准的数字
大于3个标准差
完成异常值的判定之后,接着需要进行处理;SPSSAU提供两类处理方式,分别为:
设置为Null值;此类处理最简单,而且绝大多数情况下均使用此类处理;直接将异常值“干掉”,相当于没有该异常值。如果异常值不多时建议使用此类方法;
填补;如果异常值非常多时,则可能需要进行填补设置,SPSSAU共提供平均值,中位数,众数和随机数共四种填补方式。建议使用平均值填补方式。
平均值填补:将不满足判断标准外(即正常数据)数据取平均值,对异常数据填补;
中位数填补:将不满足判断标准外(即正常数据)数据取中位数,对异常数据填补;
众数填补:将不满足判断标准外(即正常数据)数据取众数,对异常数据填补;
随机数填补:将不满足判断标准外(即正常数据)数据取随机数(最小和最大值之间),对异常数据填补;
首先需要选中处理的标题,请谨慎操作,一旦操作无法还原数据;
异常值是针对原始数据进行修改;无法还原,建议处理之前先进行“备份数据”,防止处理出错时无法还原。
异常值判定没有固定标准,带微弱主观性;
上图中将数字小于0,也或者数字大于7的数据(针对选中的标题);设置为Null值。
如果填充为null时,任何时候都生效。
如果填充为平均数,中位数或众数这三种情况时;如果不满足判断标准外(即正常数据)的个数小于3个,则整个处理不生效(无法填充);
填充为随机数时;如果不满足判断标准外(即正常数据)的个数小于3个,则整个处理不生效(无法填充);
针对数据标签,数据编码,生成变量,异常值和无效样本这五个数据处理功能,直接选中即可,不需要拖拽操作。配合ctrl或者shift键同时选择多项,批量一次性操作处理。
如果数据有异常值,比如本身数据全部应该大于0,但却出现小于0的数字【可使用频数分析,或者描述分析,箱线图等进行检查】。此时可使用异常值功能,将异常数据处理成null值。【特别提示,此操作不可逆,建议操作将先对数据备份(数据管理 ->备份)】
如果出现缺失值,通常情况下并不需要处理。如果缺失数据过多且样本较少,此时可考虑对缺失数据填补,以保证有效样本量。SPSSAU提供平均值、中位数、众数和随机数等填补方式,一般情况下使用平均值或中位数填补较多。
如果希望对异常数据进行插值处理,SPSSAU提供线性插值和‘该点线性趋势插值’。如果是线性插值,其原理是将前后挨的最近的完整点进行线性拟合得到模型,然后将缺失数据的index进行拟合得到插值。如果是使用‘该点线性趋势插值’,其原理是将该标题数据进行线性拟合模型,然后结合缺失数据的index进行拟合得出插值。默认情况下建议使用线性插值法。插值法使用时默认在原始数据中填补无法恢复,建议先备份好数据后使用防止错误操作无法复原。
异常值处理逻辑上:比如有100个样本,点击第1次时是基于该100个样本进行识别异常值,比如识别出2个,那么就余下98个。如果此时再点击第2次,那么此次是基于98个样本进行识别异常值。因而异常值设置通常一般只点击1次。如果操作出错,建议重新上传数据处理即可,或者在处理前先备份一份数据。