零膨胀负二项回归分析

计数研究模型中,常用泊松回归模型,但泊松回归模型理论上是要求平均值与标准差相等,如果不满足,则可使用负二项回归模型,负二项回归放宽了平均值=标准差这一理论假定。

在实际研究中,会出现一种情况即因变量为计数变量,并且该变量包括非常多的数字0,当出现此种情况下,此时可考虑使用零膨胀负二项回归模型。零膨胀模型的特点是将模型分为两阶段进行(即设置为混合分布模型),第1阶段(零膨胀阶段)为计数变量是否为0的拟合,SPSSAU默认使用二元logit模型进行拟合,第2阶段为负二项分布模型拟合。

零膨胀负二项回归模型分为两个阶段,第1阶段即零膨胀阶段可拟合因变量是否为0,此阶段中可放入一些自变量X用于拟合因变量是否取数字0的模型,当然也可不放入;第2阶段放入的自变量X为真实研究的变量项。

零膨胀负二项回归案例

  • 1、背景

    当前有一份关于美国犯罪率的研究,数据包括被捕次数,该变量为计数变量,并且包括大量的数字0(即被捕次数为0),除此之外,包括另外5个自变量,分别是‘有前科比例’、‘平均判邢月数’、‘18岁以来入狱月数’、‘1986年合法收’和‘是否黑人’,其中是否黑人这项,使用数字1表示黑人,数字0表示不是黑人。部分数据截图如下:

  • 2、理论

    零膨胀负二项回归模型研究X对于Y的影响,且Y为计数变量且Y包括较多的数字0。除此之外,零膨胀负二项回归模型分为两个阶段,第1阶段为判断Y是否为0的二元logit模型,第1阶段中可包括影响Y是否为数字0的影响因素X,当然也可没有(如果没有此为常数);第2阶段为真实的研究模型。

  • 3、操作

    本例子中研究被捕次数的影响因素,其中影响因素包括‘有前科比例’、‘平均判邢月数’、‘18岁以来入狱月数’、‘1986年合法收’和‘是否黑人’,操作截图如下。

    本案例时第1阶段零膨胀模型并不包括任何影响因素,因而‘零膨胀项X【可选】’框留空,不放入分析项。与此同时,本案例数据为原始数据并非带‘基数Exposure’格式数据,因而基数项框留空。

  • 4、SPSSAU输出结果

    零膨胀泊松回归模型一共输出4个表格,说明如下:

    表格名称 说明
    零膨胀数据汇总结果 展示因变量中数字0和不是数字0的分布情况
    零膨胀负二项回归模型似然比检验 展示模型似然比检验及信息准则指标等
    零膨胀负二项回归分析结果汇总 输出模型拟合回归系数结果
    零膨胀负二项回归分析结果汇总-简化格式 输出简化版格式模型结果
  • 5、文字分析

    零膨胀数据汇总结果 
    样本量 百分比
    数字为0 1970 72.29%
    数字不为0 755 27.71%
    总计 2725 100%

    上表格展示‘被捕次数’的数字0分布情况,从上表格可以看到,共计2725个样本中有72.29%为数字0,因而意味着应该使用零膨胀模型较为适合。

    零膨胀负二项回归模型似然比检验
    模型 -2倍对数似然值 卡方值 df p AIC 值 BIC 值
    仅截距 4581.381
    最终模型 4365.366 216.015 5 0.000 4377.366 4412.827

    从上表格可以看到:模型通过似然比检验(χ2 =216.015, p =0.000<0.05),即意味着模型构建有意义。除此之外,上表格展示出AIC值和BIC值,如果需要进行模型对比选优,可使用该两个指标,该两个指标值越小越好。

    • 特别提示:
    • 如果需要对比选择零膨胀泊松回归和零膨胀负二项回归模型,直接对比AIC或BIC值选择较小时对应的模型即可。

    • 与此同时,当前案例直接进行零膨胀泊松回归时,会发现AIC值/BIC值非常接近,而且下述的回归分析表格数字和结论基本一致。

    上表格展示出零膨胀泊松回归结果,首先零膨胀模型中仅列出常数值,因为本案例中零膨胀模型并没有设置影响‘被捕次数’是否为0的影响因素项。

    从上表格可以看到:有前科比例呈现出0.01水平的显著性,回归系数值为-0.479,即意味着有前科比例越高时,被捕次数反倒越少。与此同时,合法收入也呈现出0.01水平的显著性,该项回归系数为-0.009<0,即意味着合法收越高的群体,其被捕次数越低。是否黑人这项的回归系数为0.498并且呈现出0.01水平的显著性,即说明相对来讲,黑人群体被捕次数明显会更高。与此同时,平均判刑月数、18岁以来入狱月数这两项对于被捕次数并没有影响关系,p 值均大于0.05。

    SPSSAU针对模型回归系数进行简化格式展示,如上表格所示。

  • 6、剖析

    • 零膨胀负二项回归分析涉及以下几个关键点,分别如下:

    • 首先需确保因变量包括较多的数字0,如果不是这样,此时应使用普通的负二项回归模型即可;

    • 如果需要在零膨胀泊松回归模型或者零膨胀负二项回归模型之间进行取值,建议结合AIC或BIC信息准则越小越好原理进行决择即可。

    • 零膨胀模型时共有两个阶段,第1阶段为零膨胀模型即研究因变量是否为0的模型,该模型中也可放入影响因素X,不放入时则该模型中仅有常数;第2阶段模型为真实研究和关注的模型。

疑难解惑

  • SPSSAU进行分析时提示‘超时’或‘请求超时’?
  • 在某些分析时,比如malquist/dea/rdd断点回归/零膨胀负二项回归等时,其计算量可能较大导致系统无法在非常快的时间内计算出结果,因而会提示‘超时’。此种情况下建议稍等5分钟,然后刷新页面,即可看见‘分析结果列表’中出现新的分析结果,点击打开即可。如果5分钟后还是没有结果,最简单的处理是在EXCEL中对数据进行删减(比如5万行数据变成2万行)后重新上传分析,以及也可以页面右上角反馈人工客服辅助查看处理(提问时,需要提供数据和操作截图共两项)。