数据探索

  • 在正式进行统计建模(如回归分析、方差分析)或数据分析之前,对数据进行一次全方位的“体检”是必不可少的步骤。比如想查看下数据是否有缺失(比如本身以为数据是200行,但分析出来显示只有150行,原因是有50行缺失数据),数据的基本特征情况如何,是否有某些数据全部都固定为一个数字等。‘数据探索’正是这样的研究方法,与此同时,但出现错误提示时也可进行‘数据探索’来具体分析。

    • 特别提示
    • 通过‘数据探索’可了解数据基本特征情况,与此同时,也可使用SPSSAU通用方法里面的‘描述分析’查看数据基本特征情况,二者的功能基本类似,但‘数据探索’更偏向于数据分析时的数据基本特征了解,描述分析更偏向于想得到比如平均值指标等。

数据探索案例

  • 1、背景

    当前有一份数据,如下图,从图中可以看到,比如X4它有缺失,比如使用线性回归分析时,使用到X1,X2,X3,X4,那分析时算法就会首先过滤到X4的缺失数据,确保X1/2/3/4均有完整的数据再分析,此种情况就会出现预期以为分析100个样本但事实上仅分析比如80个样本的情况。

  • 2、理论

    数据探索的目的在于以下几点:

    第1:查看数据是否有缺失;

    第2:查看数据的基本特征,比如数据是否完全固定为1个数字,是否为01变量数据;比如二元Logit回归时,数据格式要求因变量Y为01变量,如果分析数据包括1和2那就不是01变量;

    第3:查看数据的可能数据类型等,比如如果是数字那就不应该是定类数据。

  • 3、操作

    SPSSAU数据处理模块里面找到‘数据探索‘分析方法,本例子操作截图如下:

  • 4、SPSSAU输出结果

    SPSSAU共输出2个表格,如下述:

    SPSSAU数据探索输出表格 说明
    数据探索(全局过滤前) 针对数据X1/2/3等分别逐一分别进行探索
    数据探索(全局过滤后) 过滤出所有分析项都无缺失时,即过滤缺失样本后分析

    ‘全局过滤’指‘全部分析项’均具有完整无缺失的一种处理;比如有100行样本,拉入X1/X2/X3进入,X1在第2行缺失,X2在第3行缺失,X3在第5行缺失,那全局过滤则将第2、3、5这3行过滤出去,余下另外97行数据进行分析,此处理则称为‘全局过滤’,这种过滤方式是很多算法的基本要求,比如线性回归/二元Logit回归等,因为算法要求数据全部都不能有缺失,SPSSAU算法上也会自动进行‘全局过滤’然后基本过滤后的数据进行分析。

  • 5、文字分析

    • 上表格中有几个重要指标,分别是:
    • 最小值和最大值:通过该2个指标可了解最基本的数据情况;

    • 不同数字个数:通过此指标可以了解数据的大致特征,比如是否仅为2个数字0或者1(提示:很多分析方法会要求此类数据特征);

    • 数据全是整数:有的研究算法会要求整数进行分析;

    • 数据探索:此点为相对结论性质的探索,比如是否为01变量,日期数据,数据是否恒定为1个数字,数据的类别数量是多少个等,比如有的算法会限定定类时类别个数不能大于10,当大于10个类别时则无法分析;

    • 数据类型诊断:结合数据特征判断数据类型是定类/定量等;

    • 缺失样本量:比如图中X4有19个缺失数据,并且可具体知晓4/5/6//7/8行等有缺失。

    当X4有19个缺失,其它全部没有缺失,那么共100个样本过滤缺失后就余下81个样本,针对该81个样本再次探索,得到‘全局过滤后’的探索结果,如下表格:

疑难解惑

  • 为什么我的变量“数据类型诊断”显示为“未知”?
  • SPSSAU 的诊断基于内置的启发式规则。当“不同数字个数”较多(如大于 30 个)且数据全为整数时,系统无法单从数字判定它是高维的定类变量(如邮编、行业代码),还是离散的定量变量(如扣分值、员工人数)。这不影响后续分析,用户根据业务实际将其视作定类或定量即可。

  • 数据探索提示“2个类别(非01变量)”,有什么影响吗?
  • 其表示该变量是二分类变量(如是否购买:1是、2否)。需要注意的是,在进行某些特定分析(如二元 Logit 回归)时,二分类因变量需要编码为“0和1”(0代表不发生,1代表发生)。可以结合 SPSSAU 的【数据编码】功能将其转化为 0/1 变量,然后进行分析。

  • 全局过滤前后的两张表有什么用?
  • “全局过滤”是高级统计分析(如线性回归、二元 Logistic 回归)前的一种数据自动清洗机制。由于多数算法模型对数据有“完整要求”,要求所有参与分析的项必须完整、不能有任何缺失,因此系统会自动检测。假设你将X1/X2/X3 三个变量纳入分析,在总共 100 行样本中,如果第 2 行缺失了X1、第 3 行缺失了X2、第 5 行缺失了X3,那么“全局过滤”就会把这 3 行有瑕疵的数据整行剔除,最终只保留完全没有缺失的 97 行完美数据进入模型计算。在 SPSSAU 中,算法会自动执行该处理以确保计算的准确性,用户无需手动清洗。