基准回归(Baseline Regression)是一种用于量化分析自变量X对因变量Y影响关系的统计分析方法,它通过在模型中逐步加入控制变量,考察核心解释变量X对因变量Y的影响是否稳健。比如:
研究教育年限对工资收入的影响时,需要逐步控制工作经验、性别、所在地区等因素,观察教育年限的回归系数是否稳定;
分析研发投入对企业绩效的影响时,逐步加入企业规模、资产负债率、行业类型等控制变量,以判断研发投入对企业绩效影响作用的稳定性。
支持4种模型类型:OLS线性回归、面板固定效应模型、二元Logit回归、有序Logit回归;
可自定义自变量/控制变量的数据类型,智能生成哑变量;
支持两种基准回归分析方法,分别是‘逐一进入法 one-by-one)和‘迭代进入法cumulative’,多数情况下使用‘迭代进入法’较多。
逐一进入法(one-by-one)指:依次单独纳入每个控制变量,最后纳入全部控制变量。例如有3个控制变量时,生成4个模型:模型1(仅X)、模型2(X+control1)、模型3(X+control2)、模型4(X+control3)、模型5(X+all controls)。这种方式能够清晰展示每个控制变量单独加入时对核心变量系数的影响。
迭代进入法(cumulative)指:控制变量逐层累积纳入。例如有3个控制变量时,生成4个模型:模型1(仅X)、模型2(X+control1)、模型3(X+control1+control2)、模型4(X+all controls)。这种方式更贴近实际研究中的逐步回归思路,展示控制变量逐步增加时核心变量系数的变化轨迹。
本次案例数据中包括3个自变量X,3个控制变量,其中X3是定类数据,Control3也是定类数据。现在希望研究3个X对于Y的影响时,3个X的影响作用是否具有较强的稳定性,即想研究该3个X是否可作为核心自变量,即不受其它因素干扰的变量。
基准回归时,具体做法上共2种,分别是逐一进入法和迭代进入法,一般情况下使用迭代进入法较多。其原理如下:
| 编号 | 逐一进入法(5个模型) | 迭代进入法(4个模型) |
|---|---|---|
| 1 | Y ~ X1 + X2 + X3 | Y ~ X1 + X2 + X3 |
| 2 | Y ~ X1 + X2 + X3 + Control1 | Y ~ X1 + X2 + X3 + Control1 |
| 3 | Y ~ X1 + X2 + X3 + Control2 | Y ~ X1 + X2 + X3 + Control1 + Control2 |
| 4 | Y ~ X1 + X2 + X3 + Control3 | Y ~ X1 + X2 + X3 + Control1 + Control2 + Control3 |
| 5 | Y ~ X1 + X2 + X3 + Control1 + Control2 + Control3 | - |
比如当前有3个X,3个Control,那么逐一进入法是指基于3个X基础上,每次模型额外加入1个控制变量Control;而迭代进入法是指每次加入1个Control而且是迭代累积加入到模型里面。
本例子操作截图如下:
在SPSSAU‘基准回归’方法中,其涉及因变量框,核心自变量X框和控制变量框,均是必须项。当前案例有3个控制变量因而放入,并且3个控制变量和3个X,其中Control3和X3是定类数据,操作如下图所示:
本次数据的因变量是定量数据,因此使用线性回归(也称OLS回归),如果因变量是01二分类变量则应该使用二元Logit回归,如果因变量是有序定类,那可考虑使用有序Logit模型。如果是面板数据且因变量是定量,那应该选择面板模型,并且设置对应的ID项和时间项。
上图中展示下拉选中了两项为定类(Control3和X3),与此同时,线性回归或者面板模型时还可设置使用‘Robust稳健标准误’,通常不选中即可(如果特别关注异方差问题则选中它),当然选中也可其会改变标准误以及对应的t值和显著性等。
SPSSAU共输出6个表格,如下述:
| SPSSAU进阶调节作用输出表格 | 说明 |
|---|---|
| 研究变量处理说明 | 包括各变量的数据类型汇总 |
| 基准回归分析结果 | 核心的基准回归分析表格 |
| 基准回归分析结果(完整结果) | 基准回归分析结果表格的横向完整展示结果 |
| 基准回归分析结果-简化格式 | 基准回归分析结果表格的简化展示结果 |
| 样本缺失情况汇总 | 分析数据的缺失情况等 |
当X或者控制变量设置为定类项时,SPSSAU会首先哑变量处理,并且以第1项作为参照项后进入分析,此时意味着比如X为定类,其有3个选项分别是1/2/3,那么第1项作为参照项,余下2项纳入模型中分析。
本案例设置了X3和Control3为定类数据,以及其它变量则默认是定量数据,以及线性回归是因变量肯定是定量数据。特别提示的是,由于X3和Control3均为定类,因此在回归时,SPSSAU会自动哑变量处理,并且将第1项作为参照项。
上表格可以看到,X3是定类项,因此其第1项作为参照项Refer,类似的还有Control3也是定类项。本次使用‘迭代进入法’进行基准回归分析,首先,从模型的整体拟合优度来看,随着控制变量的逐步引入,模型的解释力度稳步上升。在未加入核心控制变量的模型1中,调整后R方为0.952;而当引入全部控制变量(模型4)后,调整后R方达到了0.979。这意味着最终模型能够解释因变量Y高达97.9%的变异幅度。同时,四个模型的F 检验p 值均小于0.01(如模型4的F (9,89)=501.779,p =0.000),证实模型整体具有极显著的统计学意义。
其次,针对核心自变量的分析如下:
1.核心自变量X1的影响:在模型1至模型4的迭代过程中,X1的回归系数虽因控制变量的加入有所波动,但始终在1%的水平上显著为正。在最终的全控制模型4中,X1的系数为1.624(t =7.076, p =0.000<0.01)。这表明,在排除所有已知控制变量的干扰后,X1对y仍具有极显著的正向促进作用。
2.核心自变量X2的影响:与X2类似,X2在四个模型中均表现出极显著的正向影响(p <0.01)。在模型4中其系数为0.194(t =3.888, p =0.000<0.01),表明X2同样是解释y的核心重要因素。
3.多分类自变量X3的影响:研究以X3_1为基准参照组(第1项是参照项)。结果显示,无论在模型1还是全控制的模型4中,哑变量X3_2(beta=0.022, p =0.520>0.05)和X3_3(beta=-0.037, p =0.273>0.05)的系数均未能通过显著性检验。这说明相对于参照组X3_1而言,类别2和类别3对因变量y并没有表现出显著的差异性影响。
综述:无论外部控制条件如何转折与加严,核心自变量X1与X2对因变量Y的正向影响效应依然高度稳定且显著,这有力地证实了本研究核心理论假设的稳健性,同时也意味着模型的稳健性。除此之外,X3从来也未显著,因而也可以考虑将X3从模型中移除出去。
基准回归在于研究:如果排除了所有其他能想到的干扰因素,我关心的因果关系到底还存不存在。也即可以理解X对于Y的影响,X是否受到其它外部因素(即控制变量)干扰后,其影响作用是否还存在,也可以理解成是一种‘稳健性检验’。当无论如何X对于Y的影响均不变化时,则意味着该X确实是核心自变量。
涉及到哑变量问题,其原理内容请参考,点击可查看。
一般在计量经济研究领域,其多数会考虑异方差问题,而Robust稳健标准误正是减少异方差问题的有效办法,因此建议选中。如果是其它研究数据通常并不需要选中该参数。Robust稳健标准误选中后,回归系数值并不会改变,但回归系数对应的标准误及其它指标包括显著性值等均会跟着变化。