数据包络分析DEA是一种多指标投入和产出评价的研究方法,其应用数学规划模型计算比较决策单元(DMU)之间的相对效率,对评价对象做出评价。比如有10个学校(即10个决策单元DMU,Decision Making Units),每个学校有投入指标(比如学生人均投入资金),也有产出指标(比如学生平均成绩,学生奥数比赛比例等),有的学校投入多,有的学校投入少,但是投入多或少,均会有对应的产出,那么具体那个学校的投入产出更加优秀呢,诸如此类投入产出的优劣问题,则可使用数据包络DEA模型进行分析。
最常见的DEA模型为CCR和BCC,此两种模型的区别在于是否假定‘规模报酬可变’,其对比如下:
DEA模型 | 备注说明 |
CCR (constant returns to scale, CRS) | 假定规模报酬不变 |
BCC (variable returns to scale, VRS) | 假定规模报酬可变,SPSSAU默认此模型 |
当前希望对天津市的城市可持续发展情况进行研究,共收集1990~1999共计10年的相关指标数据。具体说明如下表格:
项 | 指标 | 说明 |
投入指标 | 政府财政收入占GDP比例(%) | 财政收入与GDP的比例 |
环保投入占GDP比例(%) | 环保相关的投入奖金占GDP的比例 | |
每千人科技人员数(人) | 每1000个人中科技人员的数量 | |
产出指标 | 人均GDP(元) | 人均GDP值 |
城市环境质量指数 | 城市环境质量测量指标,已经归一化处理,该值越大越好 |
原始数据如下图,从下图来看,从1990~1999年共计10年里面,人均GDP和城市环境质量指数均在逐步提高,单独从产出指标来看说明每年都在提升。但反过来看,3个投入指标却有高有低,那么到底哪些年的投入产出较好,而哪些年的投入产出还有改进空间并不知晓,这正是需要数据包络分析DEA分析寻找的答案。
数据包络分析DEA时,首先需要分析综合效益值θ,即首先判断DMU是否有DEA有效,如果有效,则说明该DMU较优,反之说明‘非DEA有效’,即相对来说还有提升空间,那么提升空间具体在哪里呢,比如提高还是减少规模呢,可以通过规模效益分析得到。与此同时,如果是‘非DEA有效’,那么具体问题是什么,投入冗余还是产出不足,则可以通过对应的投入冗余 或产出不足分析表格得出,具体数字直接查看松驰变量即可。如下表所示:
项 | 说明 |
综合效益值θ | 用于判断DEA是否有效(即有效性分析),数字1则‘DEA有效’,反之小于1则‘非DEA有效’ |
规模效益值 | 该值等于1则说明规模收益不变(最优状态),该值小于1说明规模收益递增(规模过小可扩大规模增加效益),该值大于1说明规模收益递减(规模过大可减少规模增加效益)。 |
投入冗余 | 投入过多,需要减少多少才更优(松驰变量S-) |
产出不足 | 产出过少,需要增加多少才更优(松驰变量S+) |
本例子操作截图如下:
分别将3个投入指标和2个产出指标放在对应的框中,与此同时,本案例中年份为决策单元DMU,因此放入对应的框中,当然也可以不放入DMU(如果不放入,SPSSAU默认输出为比如第1项,第2项等)。另外,本案例使用默认的BCC(VRS)模型进行分析。
有效性分析
有效性分析(图)
规模报酬分析
投入冗余分析
产出不足分析
描述统计
有效性分析
综合效益(图)
投入冗余分析
产出不足分析
描述统计
有效性分析是指决策单元DMU的总体有效性情况,本案例使用BCC模型进行分析。从上表可以看出:1997,1998和1999这三年的数据均为‘DEA强有效’,即相对于其它年份(DMU)来讲,此3年的投入产出达到相对最有效率。
关于有效性的判断规则说明如下:
综合效益OE值 | 松驰变量S- | 松驰变量S+ | 判断结果 |
该值=1 | 0 | 0 | DEA强有效 |
该值=1 | 大于0 | 0 | DEA弱有效 |
该值=1 | 0 | >0 | DEA弱有效 |
该值<1 | 非DEA有效 |
如果综合效益值等于1且松驰变量S-和松驰变量均为0,那么为DEA强有效,说明相对来讲某DMU单元达到最有效率;如果综合效益值等于1并且2个松驰变量任意中任意1个大于0,那么为DEA弱有效,说明某DMU单元已经相对有效率但还有一定提升空间;如果说综合效益值小于1(此时不论松驰变量为多少),那么为非DEA有效,即说明相对来讲投入产出比效率较差。
以及关于上表格中各指标的意义说明如下表:
指标 | 意义 | 备注说明 |
项 | 即DMU决策单元,也称评价对象 | 一行为一个DMU即一个评价对象 |
技术效益 | 反映技术因素带来的效率 | 该值等于1则说明要素合理使用,反之该值小于1说明要素技术效率还有提升空间 |
规模效益 | 规模带来的效率 | 等于1则说明规模收益不变(最优状态),该值小于1说明规模收益递增(规模过小可扩大规模增加效益),该值大于1说明规模收益递减(规模过大可减少规模增加效益) |
综合效益 | 反映决策单元DMU要素的效率情况 | 综合效益=技术效益*规模效益,该小于等于1 |
松驰变量S- | 减少多少投入时达目标效率 | 投入冗余分析表格中还会进一步分析使用 |
松驰变量S+ | 增加多少产出时达目标效率 | 产出不足分析表格中还会进一步分析使用 |
从本案例分析来看,除1997,1998和1999共3个决策单元外,其余年份(决策单元DMU)均为非DEA有效,即还有较大的提升空间,下述中还会进一步对规模效益系数进行分析。
上图为有效性分析的图示化,人上图可以看到,从1990到1999年变迁过程中,综合效益值在不断的提升,也即说明政府的投入产出效率在不断提升。包括规模效益和技术效益均在不断提升,进一步说明投入产出效率的提升,也即说明政府的效率在不断提高。
针对BCC模型即规模报酬可变模型来看,上述分析可知,1997,1998和1999这3年均为DEA强有效,自然其规模报酬达到最优即规模报酬固定。而1997年之前,规模报酬系数值均小于1,也即说明规模报酬递增,加大规模更加速提高投入产出比。可能这也正是政府在逐年提升投入的原因。关于规模报酬系数的判断规则说明如下表:
规模报酬系数 | 意义 |
等于1 | 说明规模收益不变(最优状态) |
小于1 | 说明规模收益递增(规模过小可扩大规模增加效益) |
大于1 | 说明规模收益递减(规模过大可减少规模增加效益) |
针对非DEA有效的决策单元DMU,可进一步分析其‘投入冗余’情况。当然DEA强有效的决策单元(本案例中的1997,1998和1999共3年),相对意义上其并没有投入冗余问题,因此松驰变量S-值均为0。
松驰变量S-意义为“减少多少投入时达目标效率”,简单来说就是得到基于当前的产出,投入要减少多少才能达到高效率。该值越小越好,最小值为0(即最优状态),从上表可知:从1990~1996年间,政府财政收入占GDP比例对应的松驰变量S-值一直都大于0,意味着财政收入相对GDP过高(收税相对过多)。与此同时,在1994~1996年这3年里,每千人科技人员数的松驰变量S-值较高,意味着科技人员占比相对过高,可适量减少科技人员投入。
至于投入冗余率,其是一个相对的数字,即‘过多投入’除以‘已投入’,分析时可直接对比该数字,如果该值越大意味着需要减少的比例越大。
针对非DEA有效的决策单元DMU,可进一步分析其‘产出不足’情况。当然DEA强有效的决策单元(本案例中的1997,1998和1999共3年),相对意义上其并没有产出不足问题,因此松驰变量S+值均为0。
松驰变量S+意义为“增加多少产出时达目标效率”,简单来说就是得到基于当前的投入,产出要增加多少才能达到高效率。该值越小越好,最小值为0(即最优状态),从上表可知:人均GDP这一产出变量仅在1995年出现松驰变量S+值大于0,意味着1995年时人均GDP相对产出较低。与此同时,1990~1993共4年时间里,松驰变量S+值大于0,说明此4年里面相对于投入,产出效率还有提升空间(即产出不够)。
至于产出不足率,其是一个相对的数字,即‘产出不足’除以‘已产出’,分析时可直接对比该数字,如果该值越大意味着需要产出增加的比例越大。
描述统计分析表格为各研究指标的平均值和标准差值等,用于查阅数据中是否有缺失或异常情况等,并无其它意义。
涉及以下几个关键点,分别如下:
数据包络分析DEA从数学原理上并不要求数据进行量纲化处理,如果需要处理,可使用SPSSAU数据处理里面的生成变量功能进行处理。与此同时,如果数据有负向(逆向)指标,则需要对其进行逆向化处理,让其指标意义变为正向。处理方式为:SPSSAU数据处理里面的生成变量功能中的逆向化处理。
如果指标中有负向(逆向)指标,那么需要对负向(逆向)指标进行逆向化处理,使其意义变为正向。处理方式为:SPSSAU数据处理里面的生成变量功能中的逆向化处理。
数据包络DEA分析有很多模型,BCC和CCR最为经典,如果考虑规模报酬可变则使用BCC,反之如果认为规模报酬不变则应使用CCR,通常情况下使用BCC较多。
数据包络DEA分析进行分析时,其是一个相对对比的过程,即基于所分析数据里面对比相对的优劣,比如不同城市的DEA分析,有的分析发现北京DEA有效,但指标更改后(或对比的DMU更换),可能就会出现北京为非DEA有效。
数据包络分析样本量需要小于1000,即DMU最多为1000个(1000行)。
SPSSAU提供的DEA数据包络模型(CCR和BCC),其均是基于最小化数学模型即投入角度。DEA模型理论上包括投入和产出两种,而且二者有可能出现不一致的数字结果(但通常结论一致)。但实际研究中通常是基于投入角度,原因为投入是决定性因素,投入才会决定产出。
如果DEA数据包络分析时提示‘投入项不能全部为0’,建议右上角我的数据查看/下载原始数据,将投入项全部均为0的DMU删除后再次进行分析即可。
综合效益值为效率的综合估计值,分析上可用于后续的分析,比如灰色关联法时作为母序列,或者TOPSIS法分析等。
规模效益*技术效益=综合效益,规模效益与技术效益一并分析时才会有意义,如果是规模报酬系数,其是单独进行规模报酬的分析,可以单独查看。多数情况下规模效益和规模报酬系数的意义一致,如果出现不一致且仅仅分析规模报酬时则以规模报酬系数为准,如果不一致且需要结合技术效益一并分析时则以规模效益为准。如果查看规模带来的效率情况,一般查看规模报酬系数。
如果出现大面积的TE或OE值均为0,建议查看研究数据中是否出现负数或者0,并且进行‘非负平移’处理后再次进行分析。
如果研究数据中出现负数或者0,不论是投入数据X或产出数据Y,此时进行DEA分析并不适合,建议可先进行‘非负平移’处理后再进行分析,非负平移处理是通过让数据统一加入一个固定数字(平移单位)后让数据全部均大于0。可通过SPSSAU数据处理->生成变量功能进行‘非负平移’处理。
面板数据可直接进行DEA分析,面板数据格式相对较为特殊,在分析上直接针对研究指标进行分析即可,数据格式可点击查看。
SPSSAU进行DEA分析时,选择保存效益,然后使用OE值进入TOBIT模型即可,OE值介于0~1之间,一般左删失设置为0,右删除设置为1即可。
在某些分析时,比如malquist/dea/rdd断点回归/零膨胀负二项回归等时,其计算量可能较大导致系统无法在非常快的时间内计算出结果,因而会提示‘超时’。此种情况下建议稍等5分钟,然后刷新页面,即可看见‘分析结果列表’中出现新的分析结果,点击打开即可。如果5分钟后还是没有结果,最简单的处理是在EXCEL中对数据进行删减(比如5万行数据变成2万行)后重新上传分析,以及也可以页面右上角反馈人工客服辅助查看处理(提问时,需要提供数据和操作截图共两项)。