异质性检验(Heterogeneity Test)是一种分析回归模型中自变量对因变量的影响是否因样本群体的不同而存在显著差异的统计方法。它回答的问题是:"某个因素X对Y的影响,在A群体和B群体中是一样的吗?"。比如:
教育回报率:多读一年书对收入的影响,在男性群体和女性群体中可能不同
政策效果:某项减税政策对企业投资的影响,在大企业和小企业中可能截然不同
药物疗效:某种药物对血压的降低效果,在不同年龄段人群中可能存在差异
市场营销:广告投入对销售额的拉动作用,在不同城市层级中效果可能不一致
SPSSAU中进行‘异质性检验’时:
支持4种模型类型:OLS线性回归、面板固定效应模型、二元Logit回归、有序Logit回归;
可自定义自变量/控制变量的数据类型,智能生成哑变量;
通过 Fisher置换检验(Fisher's Permutation Test)判断组间系数差异是否显著
异质性检验的核心思路是:将样本按某个分组变量(异质变量)划分为若干组,分别拟合回归模型,再通过置换检验来判断不同组之间自变量的回归系数是否存在统计学上显著的差异。
本次案例数据中包括3个自变量X,3个控制变量,其中X3是定类数据,Control3也是定类数据。现在希望研究3个X对于Y的影响时,3个X的影响作用是否具有较强的稳定性,即想研究该3个X是否可作为核心自变量,即不受其它因素干扰的变量。
异质性检验检验的问题是:"某个因素X对Y的影响,在A群体和B群体中是一样的吗?",比如X影响Y时,区分3个组别分别是国有企业、外资企业和私营企业时,X对于Y的回归系数是否有着显著性差异,具体是通过Fisher置换检验来判断回归系数的差异性。
Fisher置换检验是一种非参数检验方法,不依赖于系数差异的具体分布假设。其基本步骤为:
1.计算观测到的两组系数差异:Dobs = |β1 − β2|
2.随机打乱异质变量的标签(即随机重新分配样本到各组),重复N次
3.每次打乱后重新拟合各组模型,计算新的系数差异Dnew
4.计算p 值:p = (Dnew ≥ Dobs 的次数) / N
如果Fisher置换检验时p 值很小(如p < 0.05),说明在原假设成立(即各组系数无差异)的情况下,几乎不可能观测到如此大的系数差异,因此拒绝原假设,认为两组间存在显著的异质性。除此之外:SPSSAU中置换检验时使用基准PK法,即其余各组分别与第1组(基准组)进行系数差异比较。
本例子操作截图如下:
在SPSSAU‘异质性检验’方法中,其涉及因变量框,自变量X框、异质变量和控制变量框。当前案例有3个控制变量因而放入,并且3个控制变量和3个X,其中Control3和X3是定类数据,与此同时,异质变量为组别hetegroup(需要提示的是:异质变量肯定是定类数据),操作如下图所示:
本次数据的因变量是定量数据,因此使用线性回归(也称OLS回归),如果因变量是01二分类变量则应该使用二元Logit回归,如果因变量是有序定类,那可考虑使用有序Logit模型。如果是面板数据且因变量是定量,那应该选择面板模型,并且设置对应的ID项和时间项。
上图中展示下拉选中了两项为定类(Control3和X3),与此同时,线性回归或者面板模型时还可设置使用‘Robust稳健标准误’,通常不选中即可(如果特别关注异方差问题则选中它),当然选中也可其会改变标准误以及对应的t值和显著性等。
SPSSAU共输出6个表格,如下述:
| SPSSAU异质性检验输出表格 | 说明 |
|---|---|
| 研究变量处理说明 | 包括各变量的数据类型汇总 |
| 异质性检验分析结果 | 核心的异质性检验分析表格 |
| 置换检验 (Permutation Test) | X对于Y影响时,不同组别的回归系数是否有着差异性 |
| 异质性检验分析结果(完整结果) | 异质性检验分析结果表格的横向完整展示结果 |
| 异质性检验分析结果-简化格式 | 异质性检验分析结果表格的简化展示结果 |
| 样本缺失情况汇总 | 分析数据的缺失情况等 |
当X或者控制变量设置为定类项时,SPSSAU会首先哑变量处理,并且以第1项作为参照项后进入分析,此时意味着比如X为定类,其有3个选项分别是1/2/3,那么第1项作为参照项,余下2项纳入模型中分析。
本案例设置了X3和Control3为定类数据,以及异质变量需要是定类数据,以及线性回归是因变量肯定是定量数据。特别提示的是,由于X3和Control3均为定类,因此在回归时,SPSSAU会自动哑变量处理,并且将第1项作为参照项。
上表格可以看到,X3是定类项,因此其第1项作为参照项Refer,类似的还有Control3也是定类项。以及异质变量共有3个组别,因而上述结果中包括第1组,第2组和第3组,与此同时,SPSSAU还将不区分组别的整体模型结果也输出。
针对X1时如果不区分组别时X1对于Y其实是有正向影响的,回归系数是1.624, p =0.000<0.05,但区分组别时即不同异质组别的回归系数,比如X1时第1/2/3组分别是0.294,-0.863和1.095,并且异质组别1/2时并没有呈现出显著性,但在第3组时呈现出显著性。那直观上判断,X1是存在着异质问题,即如果不区分异质变量组别时,X1整体上有着正向影响,但具体区分异质组别时,X1对于Y的影响是有着明显差异的。类似地,X2和X3也可以类似进行分析,但关键还是需要进行置换检验来查看回归系数差异。接着具体通过置换检验来分析。
上表格可以看到,针对X1时第3组的系数显著(如 X1=1.095),而第1组不显著(X1=0.294),就主观断定“第3组的影响显著大于第1组”。这在统计学上并不严谨。要证明两组的系数确实存在显著差异,必须进行组间系数差异检验。第2组和第1组进行PK时,Δβ绝对值=1.157,而且并没有呈现出显著性,类似地第3组和第1组PK时,Δβ绝对值=0.800,而且并没有呈现出显著性,也即意味着相对来看,X1对于Y影响时,第1组和第2组,或者第1组和第3组之间并没有明显的差异性,也即说明并没有异质性问题,类似地X2和X3也类似的分析(X3是定类数据有哑变量处理需要具体分析哑变量项)。当然第2组和第3组还可以进行PK,似研究者需要进行。
SPSSAU默认使用‘基准PK法’,即第2/3/4/5等组别分别与第1组别进行PK,如果想进行比如2和3的对比,那可首先使用‘数据编码’功能,将2编码成最小的数字让其成为‘基准PK组’后再次分析即可。
简单地进行分组回归并比较系数大小,存在两个关键问题。1是无法判断差异是否显著,肉眼看到的系数大小不同,可能是抽样误差导致的,并不代表真实差异。2是传统方法(如Chow检验,SPSSAU默认有提供)需要假设误差项分布,而异质性检验使用的Fisher置换检验是一种非参数方法,不依赖分布假设,更为稳健。
Fisher置换检验是非参数检验方式,其并不依赖分布假设,无需假设系数差异服从正态分布,适用于小样本或分布未知的情形。并且Fisher置换检验对异常值稳健,非参数方法的特性使其不易受极端值影响。需要注意的是,如果是面板数据,其采用block置换(按个体整体置换),保持了面板数据结构下进行检验。
涉及到哑变量问题,其原理内容请参考,点击可查看。
一般在计量经济研究领域,其多数会考虑异方差问题,而Robust稳健标准误正是减少异方差问题的有效办法,因此建议选中。如果是其它研究数据通常并不需要选中该参数。Robust稳健标准误选中后,回归系数值并不会改变,但回归系数对应的标准误及其它指标包括显著性值等均会跟着变化。