卡方检验用于分析定类数据与定类数据之间的关系情况.例如不同减肥治疗方式对于减肥的帮助情况(胆固醇水平)。
首先判断p 值是否呈现出显著性,如果呈现出显著性,则说明数据具有显著性差异,具体差异可通过选择百分比进行对比判断。
卡方检验是研究实际观测值与理论值之间的偏离程度,实际观测值与理论值之间的偏离程度决定卡方值的大小,卡方值越大,偏差越大;卡方值越小,偏差越小,越趋于符合,若两个值完全相等时,卡方值就为0,表明实际观测值与理论值完全符合。
卡方检验用于研究X和Y之间的关系,且X,Y均为定类数据。卡方检验需要使用卡方值和对应p值去判断X与Y之间是否有差异。通常情况下,共有4种卡方值,分别是Pearson卡方,yates校正卡方,似然比卡方,fisher卡方;优先使用Pearson卡方,其次为yates校正卡方(或似然比卡方),最后为fisher卡方。
具体应该使用Pearson卡方,yates校正卡方(或似然比卡方),也或者fisher卡方;需要结合X和Y的类别个数,样本量,以及期望频数格子分布情况等,选择最终应该使用的卡方值。SPSSAU会自动化这一选择过程,具体选择标准如下:
下述中n代表总样本量;E代表期望频数;R代表X的类别个数;C代表Y的类别个数。
针对2*2(R=2,C=2)
n>=40 且 E全部>=5则使用Pearson卡方;
n>=40但其中有1个格子出现1<=E<5则使用yates校正卡方;
任何一格子出现E<1或n<40则使用fisher卡方;
针对R*C(R,C中任意一个大于2;且R>=2,且C>=2)
E全部>1 且 1<=E<5格子的比例小于20% 则使用Pearson卡方,否则使用似然比卡方。
医生测试三种减肥方式(药物,饮食和锻炼)对于减肥的帮助情况;减肥帮助使用胆固醇水平进行衡量,并且区分为胆固醇较高和胆固醇较低两类。明显的,此研究是3*2类型的卡方检验,X包括3个类别,Y包括2个类别。
卡方检验用于研究X和Y之间的关系,且X,Y均为定类数据。并且卡方检验需要使用卡方值和对应p 值去判断X与Y之间是否有差异。通常情况下,共有4种卡方值,分别是Pearson卡方,yates校正卡方,似然比卡方,fisher卡方;优先使用Pearson卡方,其次为yates校正卡方(或似然比卡方),最后为fisher卡方。
具体应该使用Pearson卡方,yates校正卡方(或似然比卡方),也或者fisher卡方;需要结合X和Y的类别个数,校本量,以及期望频数格子分布情况等,选择最终应该使用的卡方值。SPSSAU已经智能化处理这一选择过程。
Pearson卡方,yates校正卡方(或似然比卡方),也或者fisher卡方的选择标准如下:
下述中n代表总样本量;E代表期望频数;R代表X的类别个数;C代表Y的类别个数。
针对2*2(R=2,C=2)
n>=40 且 E全部>=5则使用Pearson卡方;
n>=40但其中有1个格子出现1<=E<5则使用yates校正卡方;
任何一格子出现E<1或n<40则使用fisher卡方;
针对R*C(R,C中任意一个大于2;且R>=2,且C>=2)
E全部>1 且 1<=E<5格子的比例小于20% 则使用Pearson卡方,否则使用似然比卡方。
减肥方式和胆固醇水平的关系研究,分别3类减肥方式,胆固醇水平共有2类;因而3*2总共有6种组合情况;每类组合情况的样本数量单独一列进行标识。如下表:
减肥方式 | 胆固醇水平 | 权重(样本数) |
1 | 1 | 2 |
1 | 2 | 10 |
2 | 1 | 7 |
2 | 2 | 4 |
3 | 1 | 6 |
3 | 2 | 3 |
由于上述数据结构中使用‘权重’加权表示,因而在放置分析项时,应该将权重放在‘加权项’处,如下图所示:
卡方检验分析结果 | |||||||
题目 | 名称 | 减肥方式 | 总计 | χ2 | p | ||
药物 | 饮食 | 锻炼 | |||||
胆固醇水平 | 胆固醇较高 | 2(16.67) | 7(63.64) | 6(66.67) | 15(46.88) | 7.054 | 0.029* |
胆固醇较低 | 10(83.33) | 4(36.36) | 3(33.33) | 17(53.13) | |||
总计 | 12 | 11 | 9 | 32 | |||
*p <0.05 ** p <0.01 |
表格和图形均是呈现结果的形式,建议结合着使用,图形共提供四类(堆积柱形图,柱形图,堆积条形图,条形图),选择使用即可,下图为堆积柱形图。
卡方检验统计量过程值 | ||
项 | 名称 | 值 |
减肥方式 * 胆固醇水平(3*2) | Pearson卡方 | 7.054(0.029*) |
连续校正Yates卡方 | 7.054(0.029*) | |
似然比卡方 | 7.545(0.023*) | |
Fisher卡方 | - | |
E>=5 | 4(66.67%) | |
1 <=E<5 | 2(33.33%) | |
E <1 | 0(0.00%) | |
Cnt | 6 | |
N | 32 | |
*p <0.05 ** p <0.01 |
上表格为卡方检验的中间过程值,用于判断最终应该使用Pearson卡方,yates校正卡方,也或者Fisher卡方。由于本案例数据为3*2格式,且1 <=E<5格子的比例大于20%(此处为33.33%),因而最终选择使用似然比卡方值。
具体文字分析例子如下:
从上表格可以看出,研究减肥方式(药物,饮食和锻炼)对于胆固醇(较高和较低)的差异关系,由于减肥方式共分为3类,胆固醇分为2类;因而为3*2格式的卡方检验,期望频数介于1~5的格子总数比例为33.33%,因而最终选择使用似然比卡方。
从上表可知,三类减肥方式与胆固醇水平之间呈现出显著性差异(χ2=7.545,p =0.023 < 0.05),具体通过对比百分比差异可知,药物减肥中有83.33%的样本为胆固醇较低,明显高于饮食(36.36%)和锻炼(33.33%)时胆固醇较低的比例,因而说明药物对于减肥的帮助较高,明显高于饮食和锻炼这两种方式。
卡方值常见分为4个,分别是Pearson卡方,yates校正卡方、似然比卡方和Fisher卡方,具体应该选择使用哪一个,这一过程由SPSSAU智能进行判断。但依然建议用户需要了解这一选择过程。具体会结合X和Y的类别个数,样本量,以及期望频数格子分布情况进行综合判断。
数据结构中如果有权重,比如本案例中减肥方式共3类,胆固醇水平分2类;因而有6类组合,因而6类组合下分别的样本量是可使用单独一列表示,如果有此数据,此时应该进行加权处理(分析时将权重项放入对应框中即可)。
参考资料:
颜虹,徐勇勇等.医学统计学[M]. 第3版. 北京:人民卫生出版社, 2015.07: 140-156.
如果数据已经进行过初步统计,比如下图中的数据,胆固醇较高并且使用药物减肥的数量为2,胆固醇较低使用锻炼减肥方式的数量为3。这种属于已经统计好的数据,如果希望对此类数据进行卡方检验,则需要对数据格式进行‘改造’。
正确的数据格式如下:胆固醇水平有2项,减肥方式有3项,因而为3*2共6种组合,则一定需要有6行,并且一定为3列,最后一列叫‘加权项’,这样的数据格式上传到SPSSAU后进行分析即可。
当呈现出显著差异性(前提)时,可分析差异,同时还可以分析差异幅度(即效应量) (提示:效应量分析为可选,只有深入研究时才需要分析);
卡方检验时,通常有5个指标均可表示效应量大小,区别在于使用场合不一样,需要结合数据交叉类型等选择使用;
交叉类型 | 效应量指标 |
2*2 | Phi |
3*3或4*4 | 列联系数 |
n*n(n>4) | 校正列联系数 |
m*n(m不等于n) | Cramer V |
上述4种类型的指标均适用于数据为完全定类数据,如果研究数据中有‘定序’数据,比如药物效果为“完全无效,有效,治愈”这类数s据(即可以看成是定类数据,也可以理解成定量数据时)。
关于‘加权数据格式’的详细说明参考:https://www.spssau.com/helps/otherdocuments/dataformat.html
如果对于分析使用的原始数据格式有疑问,请参考下面链接说明: https://www.spssau.com/helps/otherdocuments/methodsdataformat.html
0~3岁对应的卡方(14.0670)和P 值(0.0002),其计算原理为:组别(阳性和阴性)分别与两组群体(是否0~3岁,但表格里面仅列出0~3岁的汇总数据)之间的卡方检验。余下3~6岁或>6岁也类似。
要想得到上图这样3个P 值,数据格式可为如下:
Step1:将‘年龄’进行虚拟哑变量处理;得到3个哑变量即3个标题,分别代表‘是否0~3岁’,‘是否3~6岁’和‘是否>6岁’;
Step2:将组别与新得到的3个哑变量进行卡方检验,即得到3个P 值。
医学研究模块里面的卡方检验方法时,SPSSAU默认提供多重比较功能,且SPSSAU仅针对第1个Y进行,可通过更换Y的位置实现其它分析项的多重比较,X或Y的选项个数大于10时不进行多重比较。
多重比较时,SPSSAU默认提供Pearson卡方检验值,多重比较时,检验次数增多会增加一类错误的概率,建议使用校正显著性水平(Bonferroni校正),比如如果显著性水平为0.05,并且两两比较次数为3次,那么Bonferroni校正显著性水平为0.05/3次=0.0167,即p值需要与0.0167进行对比,而不是0.05。
如果卡方检验出现多个卡方值和p值,其原理和详细操作步骤说明如下,请点击查看
SPSSAU医学研究模块的卡方检验,如果是2*2检验表格默认会提供fisher检验,特别提示:此时fisher检验SPSSAU输出优势比OR值(非卡方值)和fisher检验p 值。