卡方检验

  • 卡方检验用于分析定类数据与定类数据之间的关系情况.例如不同减肥治疗方式对于减肥的帮助情况(胆固醇水平)。

    首先判断p 值是否呈现出显著性,如果呈现出显著性,则说明数据具有显著性差异,具体差异可通过选择百分比进行对比判断。

    卡方检验是研究实际观测值与理论值之间的偏离程度,实际观测值与理论值之间的偏离程度决定卡方值的大小,卡方值越大,偏差越大;卡方值越小,偏差越小,越趋于符合,若两个值完全相等时,卡方值就为0,表明实际观测值与理论值完全符合。

    SPSSAU操作截图如下:

    • 特别提示:
    • 卡方检验用于研究X和Y之间的关系,且X,Y均为定类数据。卡方检验需要使用卡方值和对应p 值去判断X与Y之间是否有差异。通常情况下,共有三种卡方值,分别是Pearson卡方,yates校正卡方,Fisher卡方;优先使用Pearson卡方,其次为yates校正卡方,最后为Fisher卡方。

    • 具体应该使用Pearson卡方,yates校正卡方,也或者Fisher卡方;需要结合X和Y的类别个数,样本量,以及期望频数格子分布情况等,选择最终应该使用的卡方值。SPSSAU会自动化这一选择过程,具体选择标准如下:

    • 下述中n代表总样本量;E代表期望频数;R代表X的类别个数;C代表Y的类别个数。

    • 针对2*2(R=2,C=2)

    • n>=40 且 E全部>=5则使用Pearson卡方;

    • n>=40但其中有1个格子出现1 <=E<5则使用yates校正卡方;

    • 任何一格子出现E <1或n<40则使用Fisher卡方;

    • 针对R*C(R,C中任意一个大于2;且R>=2,且C>=2)

    • E全部>1 且 1 <=E<5格子的比例小于20% 则使用Pearson卡方,否则使用yates校正卡方。

卡方检验案例

  • 1、背景

    医生测试三种减肥方式(药物,饮食和锻炼)对于减肥的帮助情况;减肥帮助使用胆固醇水平进行衡量,并且区分为胆固醇较高和胆固醇较低两类。明显的,此研究是3*2类型的卡方检验,X包括3个类别,Y包括2个类别。

  • 2、理论

    卡方检验用于研究X和Y之间的关系,且X,Y均为定类数据。并且卡方检验需要使用卡方值和对应p 值去判断X与Y之间是否有差异。通常情况下,共有三种卡方值,分别是Pearson卡方,yates校正卡方,Fisher卡方;优先使用Pearson卡方,其次为yates校正卡方,最后为Fisher卡方。

    具体应该使用Pearson卡方,yates校正卡方,也或者Fisher卡方;需要结合X和Y的类别个数,校本量,以及期望频数格子分布情况等,选择最终应该使用的卡方值。SPSSAU已经智能化处理这一选择过程。

    • 特别提示:
    • Pearson卡方,yates校正卡方,也或者Fisher卡方的选择标准如下:

    • 下述中n代表总样本量;E代表期望频数;R代表X的类别个数;C代表Y的类别个数。

    • 针对2*2(R=2,C=2)

    • n>=40 且 E全部>=5则使用Pearson卡方;

    • n>=40但其中有1个格子出现1 <=E<5则使用yates校正卡方;

    • 任何一格子出现E <1或n<40则使用Fisher卡方;

    • 针对R*C(R,C中任意一个大于2;且R>=2,且C>=2)

    • E全部>1 且 1 <=E<5格子的比例小于20% 则使用Pearson卡方,否则使用yates校正卡方。

  • 3、操作

    减肥方式和胆固醇水平的关系研究,分别3类减肥方式,胆固醇水平共有2类;因而3*2总共有6种组合情况;每类组合情况的样本数量单独一列进行标识。如下表:

    减肥方式 胆固醇水平 权重(样本数)
    1 1 2
    1 2 10
    2 1 7
    2 2 4
    3 1 6
    3 2 3

    由于上述数据结构中使用‘权重’加权表示,因而在放置分析项时,应该将权重放在‘加权项’处,如下图所示:

  • 4、SPSSAU 输出结果

    卡方检验分析结果
    题目 名称 减肥方式 总计 χ2 p
    药物 饮食 锻炼
    胆固醇水平 胆固醇较高 2(16.67) 7(63.64) 6(66.67) 15(46.88) 7.054 0.029*
    胆固醇较低 10(83.33) 4(36.36) 3(33.33) 17(53.13)
    总计 12 11 9 32
    *p <0.05 ** p <0.01
    • 特别提示
    • 表格和图形均是呈现结果的形式,建议结合着使用,图形共提供四类(堆积柱形图,柱形图,堆积条形图,条形图),选择使用即可,下图为堆积柱形图。

    卡方检验统计量过程值
    名称
    减肥方式 * 胆固醇水平(3*2) Pearson卡方 7.054(0.029*)
    连续校正Yates卡方 7.054(0.029*)
    Fisher卡方 -
    E>=5 4(66.67%)
    1 <=E<5 2(33.33%)
    E <1 0(0.00%)
    Cnt 6
    N 32
    *p <0.05 ** p <0.01

    上表格为卡方检验的中间过程值,用于判断最终应该使用Pearson卡方,yates校正卡方,也或者Fisher卡方。由于本案例数据为3*2格式,且1 <=E<5格子的比例大于20%(此处为33.33%),因而最终选择使用yates校正卡方值。【特别备注: Pearson卡方和yates校正卡方完全相同是正常现象,多数情况下二者完全相等

  • 5、文字分析

    具体文字分析例子如下:

    从上表格可以看出,研究减肥方式(药物,饮食和锻炼)对于胆固醇(较高和较低)的差异关系,由于减肥方式共分为3类,胆固醇分为2类;因而为3*2格式的卡方检验,期望频数介于1~5的格子总数比例为33.33%,因而最终选择使用yates校正卡方值。

    从上表可知,三类减肥方式与胆固醇水平之间呈现出显著性差异(χ2=7.054,p =0.029 < 0.05),具体通过对比百分比差异可知,药物减肥中有83.33%的样本为胆固醇较低,明显高于饮食(36.36%)和锻炼(33.33%)时胆固醇较低的比例,因而说明药物对于减肥的帮助较高,明显高于饮食和锻炼这两种方式。

  • 6、剖析

    • 卡方检验需要特别注意两点,分别是卡方值的选择和数据结构。
    • 卡方值常见分为三个,分别是Pearson卡方,yates校正卡方和Fisher卡方,具体应该选择使用哪一个,这一过程由SPSSAU智能进行判断。但依然建议用户需要了解这一选择过程。具体会结合X和Y的类别个数,样本量,以及期望频数格子分布情况进行综合判断。

    • 数据结构中如果有权重,比如本案例中减肥方式共3类,胆固醇水平分2类;因而有6类组合,因而6类组合下分别的样本量是可使用单独一列表示,如果有此数据,此时应该进行加权处理(分析时将权重项放入对应框中即可)。

    参考资料:

    颜虹,徐勇勇等.医学统计学[M]. 第3版. 北京:人民卫生出版社, 2015.07: 140-156.

疑难解惑

  • 什么样的数据格式才适合?
  • 如果数据已经进行过初步统计,比如下图中的数据,胆固醇较高并且使用药物减肥的数量为2,胆固醇较低使用锻炼减肥方式的数量为3。这种属于已经统计好的数据,如果希望对此类数据进行卡方检验,则需要对数据格式进行‘改造’。

  • 正确的数据格式如下:胆固醇水平有2项,减肥方式有3项,因而为3*2共6种组合,则一定需要有6行,并且一定为3列,最后一列叫‘加权项’,这样的数据格式上传到SPSSAU后进行分析即可。

  • 关于效应量(effect size)说明?
  • 当呈现出显著差异性(前提)时,可分析差异,同时还可以分析差异幅度(即效应量) (提示:效应量分析为可选,只有深入研究时才需要分析);

  • 卡方检验时,通常有5个指标均可表示效应量大小,区别在于使用场合不一样,需要结合数据交叉类型等选择使用;

交叉类型 效应量指标
2*2 Phi
3*3或4*4 列联系数
n*n(n>4) 校正列联系数
m*n(m不等于n) Cramer V
  • 上述4种类型的指标均适用于数据为完全定类数据,如果研究数据中有‘定序’数据,比如药物效果为“完全无效,有效,治愈”这类数s据(即可以看成是定类数据,也可以理解成定量数据时)。

关于‘加权数据格式’的详细说明参考:https://www.spssau.com/helps/otherdocuments/dataformat.html

  • 卡方检验出现非常多个卡方值和P 值的原理和SPSSAU快捷处理步骤?
  • 以上图为例:
  • 0~3岁对应的卡方(14.0670)和P 值(0.0002),其计算原理为:组别(阳性和阴性)分别与两组群体(是否0~3岁,但表格里面仅列出0~3岁的汇总数据)之间的卡方检验。余下3~6岁或>6岁也类似。

  • 要想得到上图这样3个P 值,数据格式可为如下:

  • SPSSAU快捷处理步骤如下:
  • Step1:将‘年龄’进行虚拟哑变量处理;得到3个哑变量即3个标题,分别代表‘是否0~3岁’,‘是否3~6岁’和‘是否>6岁’;

  • Step2:将组别与新得到的3个哑变量进行卡方检验,即得到3个P 值。

  • 卡方检验事后多重比较是什么意思?
  • 医学研究模块里面的卡方检验方法时,SPSSAU默认提供多重比较功能,且SPSSAU仅针对第1个Y进行,可通过更换Y的位置实现其它分析项的多重比较,X或Y的选项个数大于10时不进行多重比较。

  • 多重比较时,SPSSAU默认提供Pearson卡方检验值,多重比较时,检验次数增多会增加一类错误的概率,建议使用校正显著性水平(Bonferroni校正),比如如果显著性水平为0.05,并且两两比较次数为3次,那么Bonferroni校正显著性水平为0.05/3次=0.0167,即p值需要与0.0167进行对比,而不是0.05。

  • 卡方检验出现多个卡方值和p值的原理?
  • 如果卡方检验出现多个卡方值和p值,其原理和详细操作步骤说明如下,请点击查看

  • Fisher卡方检验时提供卡方值?
  • SPSSAU医学研究模块的卡方检验,如果是2*2检验表格默认会提供fisher检验,特别提示:此时fisher检验SPSSAU输出优势比OR值(非卡方值)和fisher检验p 值。