当X为定类数据,Y为定量数据时,通常使用的是方差分析进行差异研究。X的个数为一个时,我们称之为单因素方差;X为2个时则为双因素方差;X为3个时则称作三因素方差,依次下去。当X超过1个时,统称为多因素方差。
在实验研究中,比如研究者测试某新药对于胆固醇水平是否有疗效;研究者共招募72名被试,男女分别为36名,以及男女分别再细分使用新药和普通药物;同时高血压患者对于新药可能有干扰,因而研究者将被试是否患高血压也纳入考虑范畴中。因而最终,X共分为三个,分别是药物(旧药和新药)、性别,是否患高血压;Y为胆固醇水平。因而需要进行三因素方差分析即多因素方差分析。
对于双因素方差,三因素方差分析;SPSSAU单独提供研究方法,并且提供更多指标输出比如交互效应或图形等;
如果是实验研究,建议使用双因素,或者三因素方差分析等;
针对X超过3个时,只能直接使用多因素方差分析;
X均为定类数据,Y为定量数据。
三因素方差分析结果 | |||||
差异源 | 平方和 | df | 均方 | F | p |
Intercept | 2.243 | 1 | 2.243 | 19.235 | 0.000** |
性别 | 0.314 | 1 | 0.314 | 2.690 | 0.106 |
是否高血压 | 7.895 | 1 | 7.895 | 67.699 | 0.000** |
药物 | 0.905 | 1 | 0.905 | 7.758 | 0.007** |
胆固醇水平实验前 | 0.094 | 1 | 0.094 | 0.802 | 0.374 |
Residual | 7.813 | 67 | 0.117 | ||
R 2: 0.552 | |||||
* p <0.05 ** p <0.01 |
某研究者测试新药对于胆固醇水平是否有疗效;研究者共招募72名被试,男女分别为36名,并且男性或女性中是否高血压患者各为18名,并且当前被试的胆固醇水平基本均保持在6.5左右。最终X共分为三个,分别是药物(旧药和新药)、性别,是否患高血压;Y为胆固醇水平。
同时,明显的可以想到,实验前的胆固醇水平基数,很可能会影响到最终的胆固醇水平,因此“实验前胆固醇水平”是一个干扰因素,因此将其作为协变量纳入模型中。
三因素方差分析,通常用于实验研究,如果某个X呈现出显著性,此时可接着使用单因素方差分析或者事后多重比较,继续对比具体差异情况
三因素方差时,有可能涉及到交互作用研究(比如二阶效应或三阶效应),SPSSAU默认不会进行输出,需要主动进行设置;
3因素方差时,共有3个X,因此二阶效应共涉及两两组合,一共为3个二阶交互项;
3因素方差时,共有3个X, 3个X只会有一个组合,因而会1个三阶交互项;
针对X超过3个时,只能直接使用多因素方差分析;
X均为定类数据,Y为定量数据。
本例子中研究3个X对于Y的差异;X分别性别,是否高血压和药物,Y为‘胆固醇水平’,同时将“实验前胆固醇水平”作为协变量纳入模型中,以及暂时不考虑交互效应,因此二阶效应和三阶效应处均不选中,SPSSAU放置如下:
三因素方差分析结果 | |||||
差异源 | 平方和 | df | 均方 | F | p |
Intercept | 2.243 | 1 | 2.243 | 19.235 | 0.000** |
性别 | 0.314 | 1 | 0.314 | 2.690 | 0.106 |
是否高血压 | 7.895 | 1 | 7.895 | 67.699 | 0.000** |
药物 | 0.905 | 1 | 0.905 | 7.758 | 0.007** |
胆固醇水平实验前 | 0.094 | 1 | 0.094 | 0.802 | 0.374 |
Residual | 7.813 | 67 | 0.117 | ||
R 2: 0.552 | |||||
* p <0.05 ** p <0.01 |
上表中,R 2值为0.552,意味着性别, 是否高血压, 药物,以及实验前胆固醇水平情况共四项解释胆固醇水平的55.2%变异。另外从上表可知,实验前胆固醇水平这项并没有呈现出显著性(F =0.802,p =0.374>0.05),说明实验前胆固醇水平并没有带来影响关系,因而也可以考虑将此项移出模型中。
研究重点在于药物对于胆固醇水平的帮助,在这里药物呈现出0.05水平的显著性(F =7.758,p =0.007 < 0.05), 意味着旧药和新药在胆固醇水平上有着显著性差异。具体显著性差异情况,可继续使用单因素方差分析进行探究,以了解新药对于胆固醇水平是否有帮助 。
除此之外,性别并没有呈现出显著性(F =2.690,p =0.106>0.05),是否高血压这项呈现出显著性(F =67.699,p =0.000 <0.05),具体也可以使用单因素方差深入探究是否高血压被试在胆固醇水平上的差异性。
另外,如果需要分析交互作用,如果需要分析交互作用,一般只会考虑二阶效应,三阶效应过于复杂通常不会考虑。通常情况下,交互作用分析的前提有两点且两点同时满足前提下才会进行交互作用分析,分别如下:
编号 | 交互作用分析前提条件 | 备注说明 |
---|---|---|
1 | 自变量X呈现出显著性 | 如果X没有呈现出显著性,说明没有影响,因此更不可能有进一步的交互关系研究 |
2 | 交互项呈现出显著性 | 即使自变量呈现出显著性,但交互项也可能不会呈现出显著性 |
交互作用的分析是基于自变量呈现出显著性,并且交互项也呈现出显著性的前提下;本案例如果考虑二阶交互作用时,交互项均不会呈现出显著性,如下表:
三因素方差分析结果 | |||||
差异源 | 平方和 | df | 均方 | F | p |
Intercept | 2.298 | 1 | 2.298 | 19.257 | 0.000** |
性别 | 0.316 | 1 | 0.316 | 2.645 | 0.109 |
是否高血压 | 7.887 | 1 | 7.887 | 66.087 | 0.000** |
药物 | 0.895 | 1 | 0.895 | 7.498 | 0.008** |
性别*是否高血压 | 0.125 | 1 | 0.125 | 1.049 | 0.310 |
性别*药物 | 0.036 | 1 | 0.036 | 0.305 | 0.583 |
是否高血压*药物 | 0.052 | 1 | 0.052 | 0.438 | 0.510 |
胆固醇水平实验前 | 0.078 | 1 | 0.078 | 0.656 | 0.421 |
Residual | 7.638 | 64 | 0.119 | null | null |
R 2: 0.562 | |||||
* p <0.05 ** p <0.01 |
上表显示,3个2阶交互项均没有呈现出显著性,因而交互作用分析结束。同时可以结合图形去了解为什么没有交互效应,比如是否高血压与药物之间的交互作用图:
明显的可以看出,有高血压被试的胆固醇水平会明显高于无高血压时;同时新药被试的胆固醇水平会明显低于旧药被试,即说明新药对于减肥有着明显帮助。是否高血压和药物这两项均呈现出显著性,但是它们的二阶交互项并没有呈现出显著性(F =0.438,p =0.510>0.05),说明二者不存在交互关系,从上图也可以看出,两条线完全平行没有交叉,说明有高血压到无高血压变化时,是否使用新药,胆固醇水平变化幅度完全一致,也即刚好证明不存在二阶交互效应。
是否放入交互项时,即是否考虑到交互作用时,有可能自变量的显著性情况有变化,比如不考虑交互作用时某个自变量呈现出显著性,如果考虑到交互作用时,该自变量却不会呈现出显著性。类似这种情况的原因在于模型变化,而且该自变量可能显著性水平不是特别高所致,可针对实际情况选择最优结果。
同第4点
三因素方差时,有可能涉及到交互作用研究(比如二阶效应或三阶效应),SPSSAU默认不会进行输出,需要主动进行设置;
3因素方差时,共有3个X,因此二阶效应共涉及两两组合,一共为3个二阶交互项;
3因素方差时,共有3个X, 3个X只会有一个组合,因而会1个三阶交互项;
针对X超过3个时,只能直接使用多因素方差分析;
X均为定类数据,Y为定量数据。
当前计算均方平方和,算法处理上SPSSAU默认为III型平方和。
通常建议使用Bonferroni校正法较优。如果各组别样本不同时可使用scheffe,如果各组别样本完全相同可使用tukey法等。具体可参考此页面 https://www.spssau.com/helps/advancedmethods/posthosmultiplecomparisons.html
单独进行事后多重比较(进阶方法->事后多重比较法)时,模型实质上为单因素方差,仅考虑1个X的情况,标准误差的计算并不一致,因此结果会不一致,但通常情况下结论会保持一致;以及此处事后多重比较使用的是边际估计均值(偏最小二乘均值)与一般意义上的平均值有所区别,类似于SPSS软件的EMMEANS功能。
简单效应指X1在某个水平时,X2不同水平的比较;SPSSAU进行简单效应时默认使用Bonferroni法进行计算p 值。
在进行事后多重比较,或者简单效应时计算的‘均值差值’是基于‘边际估计均值’进行计算,实验研究中,如果为平衡数据,则‘边际估计均值’与平均值完全一样,如果为非平衡数据,‘边际估计均值’为平均值的‘矫正’,其更为科学和准确;通常来看,‘边际估计均值’和平均值应该非常接近,因为它们的测量意义完全一致。
SPSSAU当前仅支持简单效应,而不支持简单简单效应。
如果选中‘效应量’,则SPSSAU会在方差检验表格中输出偏Eta方(Partial η2),偏Eta方表示效应量大小时,通常情况下效应量小、中、大的区分临界点分别是:0.01,0.06和0.14。与此同时,事后多重表格中会提供cohen d 这一效应量值,通常情况下Cohen's d 值表示效应量大小时,效应量小、中、大的区分临界点分别是:0.20,0.50和0.80。