卡方检验

  • 卡方检验用于分析定类数据与定类数据之间的关系情况.例如不同减肥治疗方式对于减肥的帮助情况(胆固醇水平)。

    首先判断p值是否呈现出显著性,如果呈现出显著性,则说明数据具有显著性差异,具体差异可通过选择百分比进行对比判断。

    卡方检验是研究实际观测值与理论值之间的偏离程度,实际观测值与理论值之间的偏离程度决定卡方值的大小,卡方值越大,偏差越大;卡方值越小,偏差越小,越趋于符合,若两个值完全相等时,卡方值就为0,表明实际观测值与理论值完全符合。

    SPSSAU操作截图如下:

    • 特别提示:
    • 卡方检验用于研究X和Y之间的关系,且X,Y均为定类数据。卡方检验需要使用卡方值和对应P值去判断X与Y之间是否有差异。通常情况下,共有三种卡方值,分别是Pearson卡方,yates校正卡方,fisher卡方;优先使用Pearson卡方,其次为yates校正卡方,最后为fisher卡方。

    • 具体应该使用Pearson卡方,yates校正卡方,也或者fisher卡方;需要结合X和Y的类别个数,样本量,以及期望频数格子分布情况等,选择最终应该使用的卡方值。SPSSAU会自动化这一选择过程,具体选择标准如下:

    • 下述中n代表总样本量;E代表期望频数;R代表X的类别个数;C代表Y的类别个数。

    • 针对2*2(R=2,C=2)

    • n>=40 且 E全部>=5则使用Pearson卡方;

    • n>=40但其中有1个格子出现1 <=E<5则使用yates校正卡方;

    • 任何一格子出现E <1或n<40则使用fisher卡方;

    • 针对R*C(R,C中任意一个大于2;且R>=2,且C>=2)

    • E全部>1 且 1 <=E<5格子的比例小于20% 则使用Pearson卡方,否则使用yates校正卡方。

卡方检验案例

  • 1、背景

    医生测试三种减肥方式(药物,饮食和锻炼)对于减肥的帮助情况;减肥帮助使用胆固醇水平进行衡量,并且区分为胆固醇较高和胆固醇较低两类。明显的,此研究是3*2类型的卡方检验,X包括3个类别,Y包括2个类别。

  • 2、理论

    卡方检验用于研究X和Y之间的关系,且X,Y均为定类数据。并且卡方检验需要使用卡方值和对应P值去判断X与Y之间是否有差异。通常情况下,共有三种卡方值,分别是Pearson卡方,yates校正卡方,fisher卡方;优先使用Pearson卡方,其次为yates校正卡方,最后为fisher卡方。

    具体应该使用Pearson卡方,yates校正卡方,也或者fisher卡方;需要结合X和Y的类别个数,校本量,以及期望频数格子分布情况等,选择最终应该使用的卡方值。SPSSAU已经智能化处理这一选择过程。

    • 特别提示:
    • Pearson卡方,yates校正卡方,也或者fisher卡方的选择标准如下:

    • 下述中n代表总样本量;E代表期望频数;R代表X的类别个数;C代表Y的类别个数。

    • 针对2*2(R=2,C=2)

    • n>=40 且 E全部>=5则使用Pearson卡方;

    • n>=40但其中有1个格子出现1 <=E<5则使用yates校正卡方;

    • 任何一格子出现E <1或n<40则使用fisher卡方;

    • 针对R*C(R,C中任意一个大于2;且R>=2,且C>=2)

    • E全部>1 且 1 <=E<5格子的比例小于20% 则使用Pearson卡方,否则使用yates校正卡方。

  • 3、操作

    减肥方式和胆固醇水平的关系研究,分别3类减肥方式,胆固醇水平共有2类;因而3*2总共有6种组合情况;每类组合情况的样本数量单独一列进行标识。如下表:

    减肥方式 胆固醇水平 权重(样本数)
    1 1 2
    1 2 10
    2 1 7
    2 2 4
    3 1 6
    3 2 3

    由于上述数据结构中使用‘权重’加权表示,因而在放置分析项时,应该将权重放在‘加权项’处,如下图所示:

  • 4、SPSSAU 输出结果

    卡方检验分析结果
    题目 名称 减肥方式 总计 卡方统计量 P
    药物 饮食 锻炼
    胆固醇水平 胆固醇较高 2(16.67) 7(63.64) 6(66.67) 15(46.88) 7.054 0.029*
    胆固醇较低 10(83.33) 4(36.36) 3(33.33) 17(53.13)
    总计 12 11 9 32
    *p <0.05 ** p <0.01
    • 特别提示
    • 表格和图形均是呈现结果的形式,建议结合着使用,图形共提供四类(堆积柱形图,柱形图,堆积条形图,条形图),选择使用即可,下图为堆积柱形图。

    卡方检验统计量过程值
    名称
    减肥方式 * 胆固醇水平(3*2) Pearson卡方 7.054(0.029*)
    连续校正yates卡方 7.054(0.029*)
    fisher卡方 -
    E>=5 4(66.67%)
    1 <=E<5 2(33.33%)
    E <1 0(0.00%)
    Cnt 6
    N 32
    *p <0.05 ** p <0.01

    上表格为卡方检验的中间过程值,用于判断最终应该使用Pearson卡方,yates校正卡方,也或者fisher卡方。由于本案例数据为3*2格式,且1 <=E<5格子的比例大于20%(此处为33.33%),因而最终选择使用yates校正卡方值。【特别备注: Pearson卡方和yates校正卡方完全相同是正常现象,多数情况下二者完全相等

  • 5、文字分析

    具体文字分析例子如下:

    从上表格可以看出,研究减肥方式(药物,饮食和锻炼)对于胆固醇(较高和较低)的差异关系,由于减肥方式共分为3类,胆固醇分为2类;因而为3*2格式的卡方检验,期望频数介于1~5的格子总数比例为33.33%,因而最终选择使用yates校正卡方值。

    从上表可知,三类减肥方式与胆固醇水平之间呈现出显著性差异(X2=7.054,P=0.029 < 0.05),具体通过对比百分比差异可知,药物减肥中有83.33%的样本为胆固醇较低,明显高于饮食(36.36%)和锻炼(33.33%)时胆固醇较低的比例,因而说明药物对于减肥的帮助较高,明显高于饮食和锻炼这两种方式。

  • 6、剖析

    • 卡方检验需要特别注意两点,分别是卡方值的选择和数据结构。
    • 卡方值常见分为三个,分别是Pearson卡方,yates校正卡方和fisher卡方,具体应该选择使用哪一个,这一过程由SPSSAU智能进行判断。但依然建议用户需要了解这一选择过程。具体会结合X和Y的类别个数,样本量,以及期望频数格子分布情况进行综合判断。

    • 数据结构中如果有权重,比如本案例中减肥方式共3类,胆固醇水平分2类;因而有6类组合,因而6类组合下分别的样本量是可使用单独一列表示,如果有此数据,此时应该进行加权处理(分析时将权重项放入对应框中即可)。

    参考资料:

    颜虹,徐勇勇等.医学统计学[M]. 第3版. 北京:人民卫生出版社, 2015.07: 140-156.

疑难解惑

  • 什么样的数据格式才适合?
  • 如果数据已经进行过初步统计,比如下图中的数据,胆固醇较高并且使用药物减肥的数量为2,胆固醇较低使用锻炼减肥方式的数量为3。这种属于已经统计好的数据,如果希望对此类数据进行卡方检验,则需要对数据格式进行‘改造’。

  • 正确的数据格式如下:胆固醇水平有2项,减肥方式有3项,因而为3*2共6种组合,则一定需要有6行,并且一定为3列,最后一列叫‘加权项’,这样的数据格式上传到SPSSAU后进行分析即可。

  • 关于效应量(effect size)说明?
  • 当呈现出显著差异性(前提)时,可分析差异,同时还可以分析差异幅度(即效应量) (提示:效应量分析为可选,只有深入研究时才需要分析);

  • 卡方检验时,通常有5个指标均可表示效应量大小,区别在于使用场合不一样,需要结合数据交叉类型等选择使用;

交叉类型 效应量指标
2*2 Phi
3*3或4*4 列联系数
n*n(n>4) 校正列联系数
m*n(m不等于n) Cramer V
  • 上述4种类型的指标均适用于数据为完全定类数据,如果研究数据中有‘定序’数据,比如药物效果为“完全无效,有效,治愈”这类数s据(即可以看成是定类数据,也可以理解成定量数据时)。

关于‘加权数据格式’的详细说明参考:https://spssau.com/front/spssau/helps/otherdocuments/dataformat.html