数据包络分析DEA分析

数据包络分析DEA是一种多指标投入和产出评价的研究方法,其应用数学规划模型计算比较决策单元(DMU)之间的相对效率,对评价对象做出评价。比如有10个学校(即10个决策单元DMU,Decision Making Units),每个学校有投入指标(比如学生人均投入资金),也有产出指标(比如学生平均成绩,学生奥数比赛比例等),有的学校投入多,有的学校投入少,但是投入多或少,均会有对应的产出,那么具体那个学校的投入产出更加优秀呢,诸如此类投入产出的优劣问题,则可使用数据包络DEA模型进行分析。

最常见的DEA模型为CCR和BCC,此两种模型的区别在于是否假定‘规模报酬可变’,其对比如下:

DEA模型 备注说明
CCR (constant returns to scale, CRS) 假定规模报酬不变
BCC (variable returns to scale, VRS) 假定规模报酬可变,SPSSAU默认此模型

数据包络分析DEA案例

  • 1、背景

    当前希望对天津市的城市可持续发展情况进行研究,共收集1990~1999共计10年的相关指标数据。具体说明如下表格:

    指标 说明
    投入指标 政府财政收入占GDP比例(%) 财政收入与GDP的比例
    环保投入占GDP比例(%) 环保相关的投入奖金占GDP的比例
    每千人科技人员数(人) 每1000个人中科技人员的数量
    产出指标 人均GDP(元) 人均GDP值
    城市环境质量指数 城市环境质量测量指标,已经归一化处理,该值越大越好

    原始数据如下图,从下图来看,从1990~1999年共计10年里面,人均GDP和城市环境质量指数均在逐步提高,单独从产出指标来看说明每年都在提升。但反过来看,3个投入指标却有高有低,那么到底哪些年的投入产出较好,而哪些年的投入产出还有改进空间并不知晓,这正是需要数据包络分析DEA分析寻找的答案。

  • 2、理论

    数据包络分析DEA时,首先需要分析综合效益值θ,即首先判断DMU是否有DEA有效,如果有效,则说明该DMU较优,反之说明‘非DEA有效’,即相对来说还有提升空间,那么提升空间具体在哪里呢,比如提高还是减少规模呢,可以通过规模效益分析得到。与此同时,如果是‘非DEA有效’,那么具体问题是什么,投入冗余还是产出不足,则可以通过对应的投入冗余 或产出不足分析表格得出,具体数字直接查看松驰变量即可。如下表所示:

    说明
    综合效益值θ 用于判断DEA是否有效(即有效性分析),数字1则‘DEA有效’,反之小于1则‘非DEA有效’
    规模效益值 该值等于1则说明规模收益不变(最优状态),该值小于1说明规模收益递增(规模过小可扩大规模增加效益),该值大于1说明规模收益递减(规模过大可减少规模增加效益)。
    投入冗余 投入过多,需要减少多少才更优(松驰变量S-)
    产出不足 产出过少,需要增加多少才更优(松驰变量S+)
  • 3、操作

    本例子操作截图如下:

    分别将3个投入指标和2个产出指标放在对应的框中,与此同时,本案例中年份为决策单元DMU,因此放入对应的框中,当然也可以不放入DMU(如果不放入,SPSSAU默认输出为比如第1项,第2项等)。另外,本案例使用默认的BCC(VRS)模型进行分析。

  • 4、SPSSAU输出结果

    • 如果是BCC模型时,SPSSAU共输出6个表格和1个图。分别如下:
    • 有效性分析

    • 有效性分析(图)

    • 规模报酬分析

    • 投入冗余分析

    • 产出不足分析

    • 描述统计

    • 如果是CCR模型时,SPSSAU共输出4个表格【无规模报酬相关的表格】和1个图。分别如下:
    • 有效性分析

    • 综合效益(图)

    • 投入冗余分析

    • 产出不足分析

    • 描述统计

  • 5、文字分析

    有效性分析是指决策单元DMU的总体有效性情况,本案例使用BCC模型进行分析。从上表可以看出:1997,1998和1999这三年的数据均为‘DEA强有效’,即相对于其它年份(DMU)来讲,此3年的投入产出达到相对最有效率。

    关于有效性的判断规则说明如下:

    综合效益OE值 松驰变量S- 松驰变量S+ 判断结果
    该值=1 0 0 DEA强有效
    该值=1 大于0 0 DEA弱有效
    该值=1 0 >0 DEA弱有效
    该值<1 非DEA有效

    如果综合效益值等于1且松驰变量S-和松驰变量均为0,那么为DEA强有效,说明相对来讲某DMU单元达到最有效率;如果综合效益值等于1并且2个松驰变量任意中任意1个大于0,那么为DEA弱有效,说明某DMU单元已经相对有效率但还有一定提升空间;如果说综合效益值小于1(此时不论松驰变量为多少),那么为非DEA有效,即说明相对来讲投入产出比效率较差。

    以及关于上表格中各指标的意义说明如下表:

    指标 意义 备注说明
    即DMU决策单元,也称评价对象 一行为一个DMU即一个评价对象
    技术效益 反映技术因素带来的效率 该值等于1则说明要素合理使用,反之该值小于1说明要素技术效率还有提升空间
    规模效益 规模带来的效率 等于1则说明规模收益不变(最优状态),该值小于1说明规模收益递增(规模过小可扩大规模增加效益),该值大于1说明规模收益递减(规模过大可减少规模增加效益)
    综合效益 反映决策单元DMU要素的效率情况 综合效益=技术效益*规模效益,该小于等于1
    松驰变量S- 减少多少投入时达目标效率 投入冗余分析表格中还会进一步分析使用
    松驰变量S+ 增加多少产出时达目标效率 产出不足分析表格中还会进一步分析使用

    从本案例分析来看,除1997,1998和1999共3个决策单元外,其余年份(决策单元DMU)均为非DEA有效,即还有较大的提升空间,下述中还会进一步对规模效益系数进行分析。

    上图为有效性分析的图示化,人上图可以看到,从1990到1999年变迁过程中,综合效益值在不断的提升,也即说明政府的投入产出效率在不断提升。包括规模效益和技术效益均在不断提升,进一步说明投入产出效率的提升,也即说明政府的效率在不断提高。

    针对BCC模型即规模报酬可变模型来看,上述分析可知,1997,1998和1999这3年均为DEA强有效,自然其规模报酬达到最优即规模报酬固定。而1997年之前,规模报酬系数值均小于1,也即说明规模报酬递增,加大规模更加速提高投入产出比。可能这也正是政府在逐年提升投入的原因。关于规模报酬系数的判断规则说明如下表:

    规模报酬系数 意义
    等于1 说明规模收益不变(最优状态)
    小于1 说明规模收益递增(规模过小可扩大规模增加效益)
    大于1 说明规模收益递减(规模过大可减少规模增加效益)

    针对非DEA有效的决策单元DMU,可进一步分析其‘投入冗余’情况。当然DEA强有效的决策单元(本案例中的1997,1998和1999共3年),相对意义上其并没有投入冗余问题,因此松驰变量S-值均为0。

    松驰变量S-意义为“减少多少投入时达目标效率”,简单来说就是得到基于当前的产出,投入要减少多少才能达到高效率。该值越小越好,最小值为0(即最优状态),从上表可知:从1990~1996年间,政府财政收入占GDP比例对应的松驰变量S-值一直都大于0,意味着财政收入相对GDP过高(收税相对过多)。与此同时,在1994~1996年这3年里,每千人科技人员数的松驰变量S-值较高,意味着科技人员占比相对过高,可适量减少科技人员投入。

    至于投入冗余率,其是一个相对的数字,即‘过多投入’除以‘已投入’,分析时可直接对比该数字,如果该值越大意味着需要减少的比例越大。

    针对非DEA有效的决策单元DMU,可进一步分析其‘产出不足’情况。当然DEA强有效的决策单元(本案例中的1997,1998和1999共3年),相对意义上其并没有产出不足问题,因此松驰变量S+值均为0。

    松驰变量S+意义为“增加多少产出时达目标效率”,简单来说就是得到基于当前的投入,产出要增加多少才能达到高效率。该值越小越好,最小值为0(即最优状态),从上表可知:人均GDP这一产出变量仅在1995年出现松驰变量S+值大于0,意味着1995年时人均GDP相对产出较低。与此同时,1990~1993共4年时间里,松驰变量S+值大于0,说明此4年里面相对于投入,产出效率还有提升空间(即产出不够)。

    至于产出不足率,其是一个相对的数字,即‘产出不足’除以‘已产出’,分析时可直接对比该数字,如果该值越大意味着需要产出增加的比例越大。

    描述统计分析表格为各研究指标的平均值和标准差值等,用于查阅数据中是否有缺失或异常情况等,并无其它意义。

  • 6、剖析

    涉及以下几个关键点,分别如下:

    • DEA分析之前需要对数据进行量纲化(比如标准化处理)?
    • 数据包络分析DEA从数学原理上并不要求数据进行量纲化处理,如果需要处理,可使用SPSSAU数据处理里面的生成变量功能进行处理。与此同时,如果数据有负向(逆向)指标,则需要对其进行逆向化处理,让其指标意义变为正向。处理方式为:SPSSAU数据处理里面的生成变量功能中的逆向化处理。

    • DEA分析时数据有正向或逆向指标如何处理?
    • 如果指标中有负向(逆向)指标,那么需要对负向(逆向)指标进行逆向化处理,使其意义变为正向。处理方式为:SPSSAU数据处理里面的生成变量功能中的逆向化处理。

    • DEA分析时选择BCC还是CCR模型?
    • 数据包络DEA分析有很多模型,BCC和CCR最为经典,如果考虑规模报酬可变则使用BCC,反之如果认为规模报酬不变则应使用CCR,通常情况下使用BCC较多。

    • SPSSAU不同数据时为什么有的DEA有效,有的却非DEA有效?
    • 数据包络DEA分析进行分析时,其是一个相对对比的过程,即基于所分析数据里面对比相对的优劣,比如不同城市的DEA分析,有的分析发现北京DEA有效,但指标更改后(或对比的DMU更换),可能就会出现北京为非DEA有效。

    • 数据包络分析提示‘样本量过多!’
    • 数据包络分析样本量需要小于1000,即DMU最多为1000个(1000行)。

疑难解惑

  • SPSSAU的DEA数据包络模型是投入还是产出角度?
  • SPSSAU提供的DEA数据包络模型(CCR和BCC),其均是基于最小化数学模型即投入角度。DEA模型理论上包括投入和产出两种,而且二者有可能出现不一致的数字结果(但通常结论一致)。但实际研究中通常是基于投入角度,原因为投入是决定性因素,投入才会决定产出。

  • DEA数据包络模型提示‘投入项不能全部为0’?
  • 如果DEA数据包络分析时提示‘投入项不能全部为0’,建议右上角我的数据查看/下载原始数据,将投入项全部均为0的DMU删除后再次进行分析即可。

  • SPSSAU进行DEA时,综合效益OE值是否可用于后续的分析?
  • 综合效益值为效率的综合估计值,分析上可用于后续的分析,比如灰色关联法时作为母序列,或者TOPSIS法分析等。

  • SPSSAU进行DEA分析时规模效益和规模报酬系数得到不同的结论?
  • 规模效益*技术效益=综合效益,规模效益与技术效益一并分析时才会有意义,如果是规模报酬系数,其是单独进行规模报酬的分析,可以单独查看。多数情况下规模效益和规模报酬系数的意义一致,如果出现不一致且仅仅分析规模报酬时则以规模报酬系数为准,如果不一致且需要结合技术效益一并分析时则以规模效益为准。如果查看规模带来的效率情况,一般查看规模报酬系数。

  • SPSSAU进行DEA分析时,TE和OE值均为数字0?
  • 如果出现大面积的TE或OE值均为0,建议查看研究数据中是否出现负数或者0,并且进行‘非负平移’处理后再次进行分析。

  • SPSSAU进行DEA分析时‘非负平移’处理?
  • 如果研究数据中出现负数或者0,不论是投入数据X或产出数据Y,此时进行DEA分析并不适合,建议可先进行‘非负平移’处理后再进行分析,非负平移处理是通过让数据统一加入一个固定数字(平移单位)后让数据全部均大于0。可通过SPSSAU数据处理->生成变量功能进行‘非负平移’处理。

  • 面板数据进行DEA分析?
  • 面板数据可直接进行DEA分析,面板数据格式相对较为特殊,在分析上直接针对研究指标进行分析即可,数据格式可点击查看

  • 如何进行DEA-TOBIT模型?
  • SPSSAU进行DEA分析时,选择保存效益,然后使用OE值进入TOBIT模型即可,OE值介于0~1之间,一般左删失设置为0,右删除设置为1即可。