比率z 检验

如果希望对比比率(比例)的差异性,包括某个比率与预期比率的差异性;也或者是两组比率的差异性;此时可使用z 检验。 比率z 检验分为两种类型,分别是单样本率z 检验,即研究某比率与预测比率的差异性;两样本率z 检验,即研究两组比率之间的差异关系。

z 检验要求数据为大样本,因此比率z 检验也需要有此条件。下述例子中会详细说明。

比率z 检验案例

  • 1、背景

    根据经验来看,溃疡病患者中有20%会发生胃出血症状。某医生观察65岁以上溃疡病人152例,其中48例发生胃出血症状。请问65岁以上患者出血情况是否比普通患者明显更高?

    本案例事件发生数量为48>5(以及未发生数量为104>5),因而可使用比率z 检验,原假设是:48/152 > 20%,研究样本率与总体率的差异性;此为单样本率z 检验。

    研究某地区男、女学生肺吸虫感染率是否有差别。随机抽样该地区80名男生和85名女生,查得男生感染人数为8例,女生为13例;请问男女学生肺吸虫感染率是否有明显的差异性?

    本案例第1组事件发生数为8>5(未发生数量为80-8=72>5);第2组事件发生数为13>5(未发生数量为85-13=72>5);符合所有事件均大于5这一标准;因此可进行两样本率z 检验。原假设是:8/80 = 13/85。

  • 2、理论

    无论是单样本率z 检验,还是两样本率z 检验,均是对比差异性,区别在于单样本率z 检验和一个预期比率进行对比;两样本z 检验进行两组数据的比率差异对比。

    除此之外,比率z 检验还需要知道以下三个术语,分别是比率差值对比、置信水平和假设检验。

    • 对比率 (比率差值对比):两样本率z 检验时,对比数字是指两组比率的差值,与某个预期比率进行对比,通常情况下是0(即两组比率的差值,与数字0进行对比PK,即假设两组比率相等的意思)。

    • 置信水平:指在多大程度上对假设有把握,通常为95%,可选为99%和90%。

    • 假设检验:原假设是等于,小于,还是大于,通常情况下等于(即直接对比是否相等,即是否有差异)。

  • 3、操作

    本次涉及两个例子,分别操作如下:

    上图显示事件发生数为48例,总样本数量为152,并且与20%这一比率进行对比;默认置信水平为95%,即对此次分析结论有95%的把握;以及研究假设为事件发生率大于预期发生率,因而假设检验选择为大于。

    上图显示两组比率进行对比,研究的是两组比率相等(即比率差值与数字0进行对比),因此比率差值对比处输入数字0;【如果是研究第1组比率,明显高出第2组比率10%,那么比率差值对比值则输入0.1】;默认置信水平为95%,即对此次分析结论有95%的把握;以及研究假设是男生和女生的感染率相等,因而假设检验选择为等于。

  • 4、SPSSAU输出结果

    针对单样本比率z 检验,SPSSAU共输出两个表格,分别是区间估计和假设检验【置信区间仅列出区间估计意义较小,假设检验针对原假设进行验证】,分别如下:

    单样本比率z 检验置信区间
    事件发生数 总样本数 比率 标准误 95% CI(LL) 95% CI(UL)
    48 152 31.579% 0.038 0.242 0.390

    本次事件发生数为48,总样本数为152,样本比率为31.579%,分析显示事件发生率的95%置信区间为(95% CI:0.242~0.390)。即有95%的把握胃出血比率应该介于24.2%到39.0%之间。

    单样本率z 检验假设检验
    事件发生数 总样本数 比率 检验比率 假设 z p 检验结论
    48 152 31.579% 20.000% 31.579%>20.000% 3.569 1.000 假设成立

    本次研究假设为为65岁老年人胃出血比率(31.579%)明显高于一般患者的20%,因此原假设为31.579%>20.0%,检验显示在0.05水平上接受原假设(z =3.569,p =1.000>0.05),即意味着当前65岁老年人胃出血比率明显高于一般患者。

    针对两样本z 检验,SPSSAU共输出两个表格,分别是区间估计和假设检验【置信区间仅列出区间估计意义较小,假设检验针对原假设进行验证】,分别如下:

    两样本率z 检验差值置信区间
    比率(第一组,n=8) 比率(第二组,n=13) 比率差值 差值标准误 95% CI(LL) 95% CI(UL)
    10.000% 15.294% -5.294% 0.051 -0.154 0.048

    本次对比男生和女生肺吸虫感染率是否有明显差异;样本数据中男生的感染率为10.0%,女生为15.294%。男生与女生的感染率差值为-5.294%,并且95%置信区间为(95% CI:-0.154~0.048)。意味着男生与女生感染率的差值在95%的把握水平下应该介于-15.4%到4.8%之间。

    两样本率z 检验差值假设检验
    比率
    (第一组,n=8)
    比率
    (第二组,n=13)
    比率差值 检验率 假设 z p 检验结论
    10.000% 15.294% -5.294% 0.000% -5.294%=0.000% -1.020 0.308 假设成立

    本次研究假设男生和女生肺吸虫感染率有无明显的差异,样本数据显示男生感染率为10.0%,女生为15.294%;原假设为-5.29%=0.00%。检验显示在0.05水平上拒绝原假设(z =-1.020,p =0.308>0.05),即意味着“男生的感染率与女生感染率保持一致”这一说法无法被拒绝。

  • 5、文字分析

  • 6、剖析

    涉及以下几个关键点,分别如下:

      比率z 检验涉及以下三个术语,分别是比率差值对比、置信水平和假设检验。
    • 对比率 (比率差值对比):两样本率z 检验时,对比数字是指两组比率的差值,与某个预期比率进行对比,通常情况下是0(即两组比率的差值,与数字0进行对比PK,即假设两组比率相等的意思)。

    • 置信水平:指在多大程度上对假设有把握,通常为95%,可选为99%和90%。

    • 假设检验:原假设是等于,小于,还是大于,通常情况下等于(即直接对比是否相等,即是否有差异)。

    • 置信区间表格列出区间估计信息意义较小,通常情况下针对假设检验表格进行分析即可。