卡方分析

  • 卡方分析(交叉表分析,列联表分析,具体为Pearson卡方),用于分析定类数据与定类数据之间的关系情况.例如研究人员想知道两组学生对于手机品牌的偏好差异情况。

    首先判断p 值是否呈现出显著性,如果呈现出显著性,则说明两组数据具有显著性差异,具体差异可通过选择百分比进行对比判断。

    分析项 卡方检验说明
    学历,网购平台偏好 不同学历样本人群,他们网购平台偏好是否有差异?

    分析结果表格示例如下(SPSSAU同时会生成柱形图/条形图等):

    选项 学历 总计 χ2 p
    本科以下 本科
    分析项1 选项1 1(1.8) 0(0.0) 1(0.9) 13.251 0.017*
    选项2 6(10.5) 6(10.3) 12(10.4)
    选项3 10(17.5) 11(19.0) 21(18.3)
    选项4 30(52.6) 36(62.1) 66(57.4)
    总计 57(100.0) 58(100.0) 115(100.0)
    * p <0.05 ** p <0.01
    • 特别提示
    • 卡方分析也即交叉分析,多用于现状政策类数据研究.

    SPSSAU操作截图如下:

卡方分析案例

  • 1、背景

    想研究性别和是否抽烟之间有没有关系,男性抽烟的比例有没有更高等。

  • 2、理论

    性别和是否抽烟的关系,这一句话里面包含两个词语,分别是:性别,是否抽烟。性别为X,是否抽烟为Y。性别为定类数据,是否抽烟也是定类数据。因而使用卡方分析进行研究。

  • 3、操作

    性别和是否抽烟的关系,性别为X,是否抽烟为Y,对应放置。如下图:

  • 4、SPSSAU输出结果

    题目 名称 性别 总计 χ2 p
    是否吸烟 吸烟 51(65.4) 27(45.0) 78(56.5) 5.734 0.017*
    不吸烟 27(34.6) 33(55.0) 60(43.5)
    总计 78 60 138
    * p <0.05 ** p <0.01
    • 特别提示
    • 表格和图形均是呈现结果的形式,建议结合着使用,图形共提供四类(堆积柱形图,柱形图,堆积条形图,条形图),选择使用即可,下图为堆积柱形图。

  • 5、文字分析

    从上表格可以看出,研究性别和是否吸烟之间的关系,由于性别和是否吸烟这两项均为定类数据,因而使用卡方分析进行研究。从上表可知,不同性别群体吸烟情况呈现出显著性差异(χ2=5.734,p =0.017 <0.05),具体通过对比百分比差异可知,男性群体中有65.4%吸烟(明显高于平均水平56.5%),但是女性群体中45%会吸烟。说明男性群体抽烟的比例明显的高于女性群体。

  • 6、剖析

    卡方是研究关系,那么差异或者区别即是关系。如何对比差异呢?直接横向对比即可,比如65.4%和45.0%进行对比,也或者65.4%和56.5%(不区分性别时平均水平)对比均可。分析是柔性的,只要先确认有差异,接着具体按照自己的一套思路进行描述具体差异即可。

疑难解惑

  • 什么样的数据格式才适合?
  • 如果数据已经进行过初步统计,比如下图中的数据,胆固醇较高并且使用药物减肥的数量为2,胆固醇较低使用锻炼减肥方式的数量为3。这种属于已经统计好的数据,如果希望对此类数据进行卡方检验,则需要对数据格式进行‘改造’。

  • 正确的数据格式如下:胆固醇水平有2项,减肥方式有3项,因而为3*2共6种组合,则一定需要有6行,并且一定为3列,最后一列叫‘加权项’,这样的数据格式上传到SPSSAU后进行分析即可。

  • 并且需要使用“实验/医学研究"->卡方检验 才可以分析。此两个地方均是卡方检验,但"通用方法"里面默认提供较大样本时最常用的Pearson卡方,医学研究中的卡方检验会提供更多种卡方值指标。

  • 卡方检验出现非常多个卡方值和P 值的原理和SPSSAU快捷处理步骤?
  • 以上图为例:
  • 0~3岁对应的卡方(14.0670)和P 值(0.0002),其计算原理为:组别(阳性和阴性)分别与两组群体(是否0~3岁,但表格里面仅列出0~3岁的汇总数据)之间的卡方检验。余下3~6岁或>6岁也类似。

  • 要想得到上图这样3个P 值,数据格式可为如下:

  • SPSSAU快捷处理步骤如下:
  • Step1:将‘年龄’进行虚拟哑变量处理;得到3个哑变量即3个标题,分别代表‘是否0~3岁’,‘是否3~6岁’和‘是否>6岁’;

  • Step2:将组别与新得到的3个哑变量进行卡方检验,即得到3个P 值。