数据分析学习路径

在与SPSSAU用户沟通过程中发现,非常的用户均是“新手”,没有数据分析的思维和概念。很多用户完全没有进行过数据分析,也不知道如何学习,部分用户有学习过统计学相关课程,但依旧不会进行数据分析。

结合SPSSAU的设计理念,建议用户学习数据分析的路径如下共三步曲。

  • 第一步:数据类型的识别

    数据类型是一切研究的基石,也是数据研究思维的最基本且最关键的思维。不同学科,不同课程,不同领域时,对于数据类型的定义基本一样,但称呼并不完全一样。首先介绍下SPSSAU里面的数据类型,共两类,分别是定类和定量数据。

    特征1 特征2 举例
    定类 数字代表类别 可以计算百分数 性别、是否吸烟
    定量 数字大小有对比意义 可以计算平均值 身高、体重

    定类数据即是分类的意思,可以计算百分比;定量数据是指数字可以对比大小,因而可以进行平均值计算。如果有的数据同时可以计算百分比,也可以计算平均值,此时就结合实际研究情况,将其似着定类或者定量数据即可。比如学历,通常情况下时看作定类数据,但数字越大也可以说成是学历越高,所以有的研究方法时把学历看作是定量数据。具体研究时均是结合实际处理,这也是数据分析的有趣之处。

    SPSSAU将数据分为两类,但在其它领域,或者学科时,数据类型的划分并不完全相同,而且称呼均不统一。这也给研究人员带来一定困惑,下表列出不同称呼时与SPSSAU数据类型的对应关系。

    别称
    定类 定性数据,离散数据,名义数据,分类数据等。
    定量 定距数据,定比数据,定序数据,连续数据,有序数据等。

    称呼各不相同,但实际意义均一致,只需要理解一句话即“算百分比时叫定类数据,算平均值时叫定量数据”。

  • 第二步:研究方法的选择

    数据类型确认后,此时即可理解数据分析方法的选择。SPSSAU的设计理念时,区分数据类型的同时,还区分X和Y。比如性别和是否吸烟的关系,X是性别,Y为是否吸烟。X和Y均为定类数据。此时则应该选择“交叉卡方”分析。

    SPSSAU当前共提供近60类研究方法,具体需要研究者结合数据类型,研究目的进行选择。

    • 第一步即选对研究方法,即数据类型的识别。具体可参考“分析方法选择”文档。

    • 第二步即结合研究目的,常见的研究目的包括:数据基本描述、影响关系研究、差异关系研究及其它关系。下表格列出研究目的与研究方法的对应关系。

    数据基本描述
    1 频数分析 定类数据
    2 描述分析 定量数据
    3 单样本t 检验 定量数据
    4 正态性检验 定量数据
    5 直方图 定量/定类数据
    6 箱线图 定量数据
    7 词云 定量数据

    上表中列出数据基本描述使用到的研究方法:最常见的为频数和描述分析,分别针对定类数据计算百分比,定量数据计算平均值。除此之外,正态性检验或者直方图可以查看定量数据的正态性特质,箱线图可以查看定量数据的分布、异常离群值情况;词云可以查看定类数据的分布特征情况。

    影响关系
    1 相关分析 X和Y的相关情况
    2 回归分析 X对Y的影响【Y定量】
    3 散点图 X和Y关系图形展示
    4 二元Logistic回归 X对Y的影响【Y定类】
    5 多分类logistic回归 X对Y的影响【Y定类】
    6 逐步回归 X对Y的影响【Y定量】
    7 分层回归 X对Y的影响【Y定量】

    上表中列出常见的关系研究涉及方法;相关分析是比较基础的关系研究,以及可以使用散点图直观展示数据关系情况。回归分析研究X对于Y的影响关系,并且Y为定量;同时还有两个方法即逐步回归,分层回归;其实质上均是回归;逐步回归是指让软件自己找出对于Y有影响的X;分层回归是指一次性运行多个回归。

    Logistic回归分析时Y均为定类数据,并且可拆分为二元logistic回归,多分类logistic回归。区别在于二元Logistic回归时,Y仅包括0和1两个数字;多分类logistic回归时,Y包括的数字超出2个。

    差异关系
    1 交叉卡方 X和Y的差异关系【X定类,Y定类】
    2 分类汇总 不同类别下数据汇总
    3 方差 X和Y的差异关系【X定类,Y定量】
    4 t 检验 X和Y的差异关系【X定类,Y定量】
    5 配对t 检验 配对数据差异研究
    6 非参数检验 X和Y的差异关系【X定类,Y定量】
    7 双因素方差 2个X和Y的差异关系【X定类,Y定量】
    8 事后多重比较 方差分析后进一步研究

    上表中列出常见的差异关系研究方法。结合数据类型即可选择出对应的研究方法。方差和t 检验的区别在于,如果X的个数仅为2个则可以使用t 检验,如果X的个数超出2个只能使用方差分析。

    方差分析更深入的研究时,会涉及方差齐性检验,正态性检验等;如果不满足条件则使用非参数检验较好。而且再进一步的深入分析时,可以在方差分析后,进行事后多重比较进一步研究。

    双因素方差通常用于实验研究,2个X对于Y的影响情况。如果研究中有多个X,此时称作多因素方差(也称多元方差);后续SPSSAU会进行提供等。

    其它高级研究方法
    1 聚类 样本分为多少类【定量】
    2 因子 数据信息浓缩,以及计算权重,竞争力等【定量】
    3 主成分 类似因子分析,数据信息浓缩,以及计算权重,竞争力等【定量】
    4 熵值法 权重计算【定量】

    聚类分析是将样本分类,因子分析与主成分分析的功能类似,可用于数据信息浓缩,也可以计算权重,同时还可以利用“综合得分”计算竞争力等。同时还有熵值法,可用于权重计算。

    问卷涉及研究方法
    1 信度 数据是否可信【量表】
    2 效度 研究是否有效【量表】
    3 项目分析 量表的区分性情况,试卷区分性情况【量表或者试卷得分】
    4 多选题 多选题数据分布情况【问卷多选题】
    5 单选-多选 单选题和多选题关系研究【问卷多选题】
    6 多选-单选 多选题和单选题关系研究【问卷多选题】
    7 多选-多选 多选题和多选题关系研究【问卷多选题】
    8 多重响应(多选/单选-多选/多选-单选/多选-多选) 等同于多选题,单选-多选的合集【问卷多选题】

    如果研究数据为问卷,则可能涉及到信度和效度研究,记住此两种方法仅针对量表数据。同时对于量表数据可使用项目分析,了解量表的区分性情况,删除掉不合理量表项等。同时如果研究中涉及多选题,则有对应五个研究方法可以使用,包括单独的多选题分析,单选与多选的交叉关系研究,多选与单选的交叉关系研究,多选和多选的交叉关系研究等。多选题的分析有时也称作多重响应(多选/单选-多选/多选-单选/多选-多选)。

  • 第三步:研究注意事项

    综上所述,如果可以区分数据类型,并且了解研究目的,则可以选择出科学的研究方法进行研究。具体每个研究方法具体的内容,直接使用SPSSAU的智能分析即可,当然也建议参阅每个方法对应的帮助手册,里面会有更详细的说明和例子,注意事项等。

    除开上述的研究方法选择之外,SPSSAU同时还提供以下几点建议,希望可以帮助到用户快速掌握数据分析。

    • 数据正态性特质:很多研究方法都是基于正态性这一前提,如果不满足时则可能使用其它方法。建议可使用直方图探索数据的正态性情况,使用箱线图探索定量数据的分布情况

    • 数据编码、生成变量等数据处理功能的使用。很多研究方法使用之前,是需要进行数据处理。比如问卷研究中1个维度对应5个量表题,此时可以使用生成变量的平均值功能先得到一个概括性的变量。也或者有的研究方法需要进行数据标准化处理等。