多期数据DID操作

  • 0、案例背景描述

    多期DID常用于政策评估效应研究,比如研究‘鼓励上市政策’,‘开通沪港通’,‘开通高铁’,‘引入新教育模式’等效应时,分析效应带来的影响情况。

    比如有50个地区分别11年(2010~2020)的数据(共计50*11=550行)。50个地区可分为两类地区A和B(分别均为25个),在2016年A类地区没有开通高铁,B类地区开通高铁。那么开通高铁对于GDP的影响情况如何呢?涉及两个关键数据,分别是Treated和Time,此处Treated为地区(A和B两个地区),以及时间项Time(高铁开通前和开通后)。同时研究‘开通高铁’参于gdp的影响,那么被解释变量Y即为gdp,与此同时还涉及可选的控制变量(控制变量为可选项,多数情况下并不需要),比如教育投入,人口或对外投资情况等,如下表说明。

    说明
    Treated 地区(0代表A类地区即控制组,1代表B类地区即实验组)
    Time 开通高铁前后(0代表开通前, 1代表开通后)
    Y gdp
    控制变量 教育投入,人口,对外投资等
      特别提示:
    • Treated只能为数字0或1,且一定包括此2个数字。其用于标识研究‘效应’对应的组别,数字0标识‘控制组’,数字1标识‘实验组’,一定需要这样处理。

    • Time只能为数字0或1,且一定包括此2个数字。其用于标识研究‘时间’对应的组别,数字0标识‘before’(实验前),数字1标识‘after(实验后),一定需要这样处理。

  • 1、数据格式

    多期面板数据进行DID分析时,数据格式类似如下图:共计50个地区分别11年的数据,那么就应该为50*11=550行数据,加上第1行为标题即最终为551行数据。多期DID分析时共需要多出3列数据,分别是time,treated,treated*time,说明如下:

    说明
    Treated 地区(0代表A类地区即控制组,1代表B类地区即实验组)
    Time 开通高铁前后(0代表开通前, 1代表开通后)
    treated*time treated与time的交互项,即乘积项

    针对treated:A地区全部为数字0,B地区全部为数字1;

    针对time:2020~2015全部是数字0代表高铁开通前,2016~2020全部是数字1代表高铁开通后;

    针对tretaed*time,其为treated与time的乘积项,即交互项。

  • 2、数据处理

    如果说数据已经是面板格式,但是没有treated,time,treated*time这三项数据,此时可使用SPSSAU->数据处理模块里面的‘数据编码’和‘生成变量’功能。使用数据编码功能时,将地区编码为01格式的treated,将年份编码为01格式的time,并且使用生成变量得到treated与time的交互项。操作分别如下各图:

    以年份为例进行数字编码如下图(当然也可使用范围编码),

    数据编码完成后,分别得到treated和time数据;

    • 当然数字0和1代表的意义需要自己进行标识(便于画图时使用),可使用数据处理里面的数据标签功能标识下即可。

    • 如果需要修改标题的名称,可使用数据处理里面的标题处理功能。

    • 接着使用生成变量功能的‘乘积(交互项)’得到treated和time的交互项,操作如下图:

  • 3、SPSSAU分析多期DID

    由于是面板数据,因而使用SPSSAU计量研究模块里面的‘面板模型’进行具体分析,操作如下图:

    • 面板模型时打勾‘双向固定’模型(即输出结果中最终使用‘双向固定’模型对应的结果;

    • 分别放入被解释变量(或因变量,此处为gdp),解释变量(或自变量,即交互项treated*time),以及将地区和年份放入对应的框中(以告诉系统此处为面板模型);

    • 关于treated和time这两项,一般并不需要放入模型中,如果模型中有控制变量可直接放入对应解释变量(自变量X)框中就好。

    • 最终输出结果中,直接分析交互项(treated*time)的显著性即可,如此其显著,则说明具有‘某效应’(此处为高铁效应),显著后如果回归系数大于0则为正向效应,反之则为负向效应。如果不显著,则说明没有‘某效应’。

  • 4、关于平行趋势检验

    多期数据进行DID模型研究时,针对共同趋势检验,通常有两种处理思路,分别是图示法和回归模型检验法。

    4.1 图示法

    对比不同组别因变量均值的时间趋势;使用SPSSAU可视化中的误差线图或簇状图均可;图示法只需要观察‘效应’时间点前即before时的各时间点时,treated和control组别因变量数据是否均有平行性(两条线基本平行)即可;

    4.2回归模型检验法

    回归中加入各时点虚拟变量与treated的交互项(本例中年份虚拟变量乘以treated数据);如果说before时,各交互项系数不显著,则表明的确有着平行趋势。操作上分为3步如下:

    • 第一步为使用SPSSAU数据处理里面的生成变量->‘虚拟变量’功能,得到‘时间项’的虚拟变量后(本例为年份);

    • 第二步为将‘第一步’的虚拟变量项分别与treated进行相乘(目的是得到交互项)。

    • 第三步是进行回归,通常可使用面板模型的个体固定效应或普通的ols回归均可。

    最后进行平行趋势检验时,本案例中2010~2015共6年为‘效应前’,如果此6个年份对应的6个交互项基本上不显著(通常不太可能全部不显著),此时则说明具有平行趋势,即通过检验。

  • 5、剖析

    涉及以下几个关键点,分别如下:

    • Treated只能为数字0或1,且一定包括此2个数字。其用于标识研究‘效应’对应的组别,数字0标识‘控制组’,数字1标识‘实验组’,一定需要这样处理。

    • Time只能为数字0或1,且一定包括此2个数字。其用于标识研究‘时间’对应的组别,数字0标识‘before’(实验前),数字1标识‘after(实验后),一定需要这样处理。

    • 多期面板数据时,一般使用‘双向固定’模型进行分析,具体分析时,只需要分析交互项‘treated*time’的显著性即可,如果显著就说明具有‘效应’,显著后回归系数大于0则说明为正向效应反之为负向效应。

    • treated和time均不需要放入模型中。

    • 除使用‘双向固定’模型进行多期DID分析外,也可直接使用比如OLS模型,或个体固定效应模型进行分析,其结论基本上均会保持一致。