在与SPSSAU用户沟通过程中发现,非常的用户均是“新手”,没有数据分析的思维和概念。很多用户完全没有进行过数据分析,也不知道如何学习,部分用户有学习过统计学相关课程,但依旧不会进行数据分析。
结合SPSSAU的设计理念,建议用户学习数据分析的路径如下共三步曲。
数据类型是一切研究的基石,也是数据研究思维的最基本且最关键的思维。不同学科,不同课程,不同领域时,对于数据类型的定义基本一样,但称呼并不完全一样。首先介绍下SPSSAU里面的数据类型,共两类,分别是定类和定量数据。
特征1 | 特征2 | 举例 | |
定类 | 数字代表类别 | 可以计算百分数 | 性别、是否吸烟 |
定量 | 数字大小有对比意义 | 可以计算平均值 | 身高、体重 |
定类数据即是分类的意思,可以计算百分比;定量数据是指数字可以对比大小,因而可以进行平均值计算。如果有的数据同时可以计算百分比,也可以计算平均值,此时就结合实际研究情况,将其似着定类或者定量数据即可。比如学历,通常情况下时看作定类数据,但数字越大也可以说成是学历越高,所以有的研究方法时把学历看作是定量数据。具体研究时均是结合实际处理,这也是数据分析的有趣之处。
SPSSAU将数据分为两类,但在其它领域,或者学科时,数据类型的划分并不完全相同,而且称呼均不统一。这也给研究人员带来一定困惑,下表列出不同称呼时与SPSSAU数据类型的对应关系。
别称 | |
定类 | 定性数据,离散数据,名义数据,分类数据等。 |
定量 | 定距数据,定比数据,定序数据,连续数据,有序数据等。 |
称呼各不相同,但实际意义均一致,只需要理解一句话即“算百分比时叫定类数据,算平均值时叫定量数据”。
数据类型确认后,此时即可理解数据分析方法的选择。SPSSAU的设计理念时,区分数据类型的同时,还区分X和Y。比如性别和是否吸烟的关系,X是性别,Y为是否吸烟。X和Y均为定类数据。此时则应该选择“交叉卡方”分析。
SPSSAU当前共提供近60类研究方法,具体需要研究者结合数据类型,研究目的进行选择。
第一步即选对研究方法,即数据类型的识别。具体可参考“分析方法选择”文档。
第二步即结合研究目的,常见的研究目的包括:数据基本描述、影响关系研究、差异关系研究及其它关系。下表格列出研究目的与研究方法的对应关系。
数据基本描述 | ||
1 | 频数分析 | 定类数据 |
2 | 描述分析 | 定量数据 |
3 | 单样本t 检验 | 定量数据 |
4 | 正态性检验 | 定量数据 |
5 | 直方图 | 定量/定类数据 |
6 | 箱线图 | 定量数据 |
7 | 词云 | 定量数据 |
上表中列出数据基本描述使用到的研究方法:最常见的为频数和描述分析,分别针对定类数据计算百分比,定量数据计算平均值。除此之外,正态性检验或者直方图可以查看定量数据的正态性特质,箱线图可以查看定量数据的分布、异常离群值情况;词云可以查看定类数据的分布特征情况。
影响关系 | ||
1 | 相关分析 | X和Y的相关情况 |
2 | 回归分析 | X对Y的影响【Y定量】 |
3 | 散点图 | X和Y关系图形展示 |
4 | 二元Logistic回归 | X对Y的影响【Y定类】 |
5 | 多分类logistic回归 | X对Y的影响【Y定类】 |
6 | 逐步回归 | X对Y的影响【Y定量】 |
7 | 分层回归 | X对Y的影响【Y定量】 |
上表中列出常见的关系研究涉及方法;相关分析是比较基础的关系研究,以及可以使用散点图直观展示数据关系情况。回归分析研究X对于Y的影响关系,并且Y为定量;同时还有两个方法即逐步回归,分层回归;其实质上均是回归;逐步回归是指让软件自己找出对于Y有影响的X;分层回归是指一次性运行多个回归。
Logistic回归分析时Y均为定类数据,并且可拆分为二元logistic回归,多分类logistic回归。区别在于二元Logistic回归时,Y仅包括0和1两个数字;多分类logistic回归时,Y包括的数字超出2个。
差异关系 | ||
1 | 交叉卡方 | X和Y的差异关系【X定类,Y定类】 |
2 | 分类汇总 | 不同类别下数据汇总 |
3 | 方差 | X和Y的差异关系【X定类,Y定量】 |
4 | t 检验 | X和Y的差异关系【X定类,Y定量】 |
5 | 配对t 检验 | 配对数据差异研究 |
6 | 非参数检验 | X和Y的差异关系【X定类,Y定量】 |
7 | 双因素方差 | 2个X和Y的差异关系【X定类,Y定量】 |
8 | 事后多重比较 | 方差分析后进一步研究 |
上表中列出常见的差异关系研究方法。结合数据类型即可选择出对应的研究方法。方差和t 检验的区别在于,如果X的个数仅为2个则可以使用t 检验,如果X的个数超出2个只能使用方差分析。
方差分析更深入的研究时,会涉及方差齐性检验,正态性检验等;如果不满足条件则使用非参数检验较好。而且再进一步的深入分析时,可以在方差分析后,进行事后多重比较进一步研究。
双因素方差通常用于实验研究,2个X对于Y的影响情况。如果研究中有多个X,此时称作多因素方差(也称多元方差);后续SPSSAU会进行提供等。
其它高级研究方法 | ||
1 | 聚类 | 样本分为多少类【定量】 |
2 | 因子 | 数据信息浓缩,以及计算权重,竞争力等【定量】 |
3 | 主成分 | 类似因子分析,数据信息浓缩,以及计算权重,竞争力等【定量】 |
4 | 熵值法 | 权重计算【定量】 |
聚类分析是将样本分类,因子分析与主成分分析的功能类似,可用于数据信息浓缩,也可以计算权重,同时还可以利用“综合得分”计算竞争力等。同时还有熵值法,可用于权重计算。
问卷涉及研究方法 | ||
1 | 信度 | 数据是否可信【量表】 |
2 | 效度 | 研究是否有效【量表】 |
3 | 项目分析 | 量表的区分性情况,试卷区分性情况【量表或者试卷得分】 |
4 | 多选题 | 多选题数据分布情况【问卷多选题】 |
5 | 单选-多选 | 单选题和多选题关系研究【问卷多选题】 |
6 | 多选-单选 | 多选题和单选题关系研究【问卷多选题】 |
7 | 多选-多选 | 多选题和多选题关系研究【问卷多选题】 |
8 | 多重响应(多选/单选-多选/多选-单选/多选-多选) | 等同于多选题,单选-多选的合集【问卷多选题】 |
如果研究数据为问卷,则可能涉及到信度和效度研究,记住此两种方法仅针对量表数据。同时对于量表数据可使用项目分析,了解量表的区分性情况,删除掉不合理量表项等。同时如果研究中涉及多选题,则有对应五个研究方法可以使用,包括单独的多选题分析,单选与多选的交叉关系研究,多选与单选的交叉关系研究,多选和多选的交叉关系研究等。多选题的分析有时也称作多重响应(多选/单选-多选/多选-单选/多选-多选)。
综上所述,如果可以区分数据类型,并且了解研究目的,则可以选择出科学的研究方法进行研究。具体每个研究方法具体的内容,直接使用SPSSAU的智能分析即可,当然也建议参阅每个方法对应的帮助手册,里面会有更详细的说明和例子,注意事项等。
除开上述的研究方法选择之外,SPSSAU同时还提供以下几点建议,希望可以帮助到用户快速掌握数据分析。
数据正态性特质:很多研究方法都是基于正态性这一前提,如果不满足时则可能使用其它方法。建议可使用直方图探索数据的正态性情况,使用箱线图探索定量数据的分布情况
数据编码、生成变量等数据处理功能的使用。很多研究方法使用之前,是需要进行数据处理。比如问卷研究中1个维度对应5个量表题,此时可以使用生成变量的平均值功能先得到一个概括性的变量。也或者有的研究方法需要进行数据标准化处理等。
最后,将研究方法配套的相关资料汇总列出如下:
研究思路: https://www.spssau.com/helps/basics/framemodule.html
常见问题: https://www.spssau.com/helps/otherdocuments/faq.html
基本概念: https://www.spssau.com/helps/basics/concept.html
数据编码: https://www.spssau.com/helps/dataprocessing/coding.html
生成变量: https://www.spssau.com/helps/dataprocessing/generatevariable.html