当前位置:首 页 >> 学术研究 >> 经济学 >> 如何科学评估经济政策的效应?
学术研究
点击排行
最新文章
热门标签
哲学 影评 符号学 分析哲学
管理 经济危机 贫富差距
传播 新闻 和谐社会
历史 胡塞尔  人口比例
郎咸平 华民 林毅夫 价值观 
司法公正 国学 正义 人文 
存在主义 现象学 海德格尔
经济学
如何科学评估经济政策的效应?
来源:网络转摘 作者:范子英 点击:61次 时间:2018-05-16 15:39:42

   1978年以来,经济保持了近40年的高速增长,在由计划经济向市场经济转型的过程中,中国借鉴了其他发达国家的成功经验,同时由于自身的特殊性,也采取了一系列具有中国特色的改革措施。一方面,中国幅员辽阔,地区之间差距巨大,很难实施“一刀切”的政策,中央政策必须充分考虑地方特色;另一方面,中国具有长达数十年的计划经济历史,改革存在严重的路径依赖,增量改革相对来说阻力更小。这意味着,我们的改革经验是在不断摸索过程中积累起来的,每一项公共政策的推出都是经过了充分的事先试验和事后总结,首先这必然要求决策层具有改革的智慧,能够举重若轻挑选出最有效率的改革方向,其次也要求决策层对改革的效果能够达成共识。此时的任务,就是如何科学量化政策的效应,如何确保此项改革试验没有包含其他政策的干扰。

   自20世纪90年代开始,中国的经济改革逐渐呈现“顶层设计”的特征,可以说这个阶段的改革任务更加艰巨。顶层设计对每一项政策的目标要求更高,严格来说,这样的改革模式对失败是零容忍的。因此,决策层对改革的效应必须有非常充分的预判。无论是早期的试验性改革,还是近期的顶层设计,都提出了一个共同要求,那就是对政策效应的科学评估和预判。而政策评估,特别是基于试验设计的评估方法,正是经济学近30年来的前沿方向。大力普及、推广科学的政策评估方法,对时下中国的改革显得非常必要。

   对这些方法的普及,首先要求相关的政府部门在思想上提高认识,明白错误方法带来的危害,这些危害有时候会导致一些好政策难以落地;其次,各决策机构和地方政府要有较高的包容性,有一些政策的评估,对相应的制度设计要求更高,相关的机构要能够理解这些前提条件,必要的时候还需要配合研究人员对政策进行调整,以满足“科学”这个重要条件;最后,当面临多个政策之间的优劣选择时,要建立以科学评估为基础的政策选择机制,从而更加精确地制定出相应的政策细节。

   本文分三部分逐步展开对科学评估方法的介绍。首先,本文从逻辑上阐述科学评估方法,特别是强调一些基本的逻辑错误;其次,参照我国常见的三种改革模式,提出相应的三种常见评估方法,并举实例进行阐述;最后,重点说明这些方法的局限以及应用过程中的谨慎解读。需要特别强调一下,本文所有内容都是初步的介绍,任何一个方法背后都有非常完整的统计学理论作为支撑,读者若对这些初步的介绍感兴趣,可以尝试阅读一些更为专业的知识。如果是决策部门的同志,对基本方法的框架有一个基本了解,应该就足以引起重视,重视才是开展科学评估的前提。

   

一、科学评估方法的基本逻辑


   从科学的意义上来说,评估一项政策的实施效应其背后的基本逻辑应该是:在给定其他条件相同的情况下,实施政策后的表现(例如价格)与假定没有实施政策后的表现的差异。这句话虽然很简单,但其背后的前提条件是非常苛刻的。举一个通俗的例子,假定我们要评估的是大学教育对工资的贡献度,我们可以造一个时空穿梭机器,首先让某人在现实中读大学,然后记录他工作时的收入A,接着我们用时空穿梭机将他再送回去,这次不让他上大学,记录他另一个平行世界中的收入B,则A-B就是此人上大学的教育回报。在政策评估的方法论中,这个例子中的B就是A的完美的反事实对照组(Counterfactual),也就是说,一旦其接受政策干预,则表现是A,如果没有接受政策干预,结果就是B。

   但是我们知道,上述例子在任何的学科领域都是无法实现的,因为历史都是单线程往前发展的,理论上我们无法构造出一个完美的平行世界,因此我们就无法获得一个政策实施后的反事实对照组。在现实世界中,一个人要么受到政策的干预,要么就是没有收到干预。以上大学为例,现实世界中的某个人,其只可能占据两种状态的一种,要么真的上大学了,要么就没有,我们无法看到一个人上大学状态下的反事实(没上大学),也无法观察到没有上大学人群的反事实(上大学)。因此,如果从一种极致的科学评估的角度来看,严格来说是无法从这个例子中去评估上大学的效应。

   自然而然,我们经常采取的方法是,直接比较那些受到政策干预的人群和未受到政策干预的人群的差别,将这个差别等价于政策实施的效果,这种简单比较的统计方法,其背后包含了一个极其苛刻的要求,那就是用未受到政策干预的人群作为政策干预人群的反事实,这句话的潜台词是说,如果那些受到干预的人群没有收到干预,其结果应该与未受到干预人群的结果是一致的。很遗憾的是,在大多数的现实政策中,这一前提条件往往是无法满足的,从而导致了整个评估结果的巨大偏误。举例说明,医疗卫生支出是政府需要大力进行资助的领域,但是作为决策层来说,任何的决策都是一种权衡和选择,用在医疗卫生领域的多了,用在教育、基建等就必须减少,因此在做具体的决策之前,就需要准确评估医疗卫生对国民健康的改善程度。我们可以采取随机抽样问卷的方式,询问一个人在过去一周是否去过医院,这个问题会呈现两种状态,如果去过医院,则是受到了医疗的干预,如果没有去过,则是未干预组;同时,我们还让接受问卷的人回答其自评健康程度,健康程度分为5档,1至5分别表示健康程度由差到好。最后,我们将调查的结果分组汇总起来,就得到如下的统计表格。

   由于是随机发的问卷,去医院的只占全部人群的一小部分,因此在近10万份的问卷中,仅有7774人是去过医院的,剩下的90049人是没有去过医院的。我们将去过医院的人群的健康程度取均值,其健康程度是3.21,而没有去过医院的人群的平均健康程度为3.93。采用简单对比的办法,我们会得出医疗恶化健康的错误结论。正如上一段所说,当我们简单地将处理组(去医院)和控制组(没去医院)进行对比时,其背后隐含的假设是,如果去医院的那些人没有去医院时,他们和那些真正没去医院的人群的健康程度是相同的。我们假定去医院的人是生病了,而没去医院的人则没有生病,前面那句话的意思是,生病的人和没有生病的人,他们的健康程度是相同的。显而易见,这个前提条件是无法满足的,假设那些去医院的人没去医院,他们的健康程度也远低于实际上没去医院的人。因此,没去过医院的人群不能作为去过医院人群的反事实参照组。由于没去过医院的人群的健康程度更好,因此这种简单对比会严重低估医疗的效应。在表1的例子中,健康的效应应该是正向的,但由于低估的程度非常大,超过了理论上的正向效应,简单对比就会得出负向的健康效应。

   另一种经常犯的错误是,简单对比政策前后的差异,并将这种时间上的差异等价于政策效应。这种纵向对比,其背后隐含的假设是,一旦没有实施该政策,该时间节点之后的表现应该与之前完全一致,因此将节点之前的表现作为节点之后的反事实参照组。但在实际的经济社会中,至少有两大类因素会使得这个假设不成立。一是时间趋势,即某些因素会随着时间的推移逐步增加或者减少,比如人的年龄、一个国家的CPI等,即使没有相应的政策干预,这些因素也会呈现一定的时间趋势,因此政策干预前的CPI并不能作为干预后的反事实参照组。二是共同冲击,这类因素往往是在国家层面统一实施的宏观调控,共同冲击会使得我们关注的指标也发生变化,而这种变化往往与政策效应是混合在一起的,很难将其单独分离出来。

   我们以2011年实施的房产税试点政策为例,来说明纵向对比的偏误。2011年2月份,为了遏制房地产价格过快上升的势头,我国开始在部分城市进行房产税的试点,选择了上海和重庆两个试点城市。与其他税种不同,房产税是在持有环节征收,等价于增加了房屋的持有成本,理论上与提高利率的作用渠道是类似的,可以挤出一部分投资性的需求,进而发挥调节房价的作用。当然,房产税还有其他更加重要的作用,例如为地方政府筹集可持续收入等等,因此该税种自试点开始就被寄予厚望。但实际结果看上去却是不尽人意的,决策层和舆论界都认为房产税试点没有起到遏制房价的作用,这种结论的来源正是简单的纵向对比。如图1所示,重庆的房产税试点从2011年2月开始,但是我们并没有看到重庆房价在试点时出现过下降,相反,试点当年的房价反而上涨了11%,看上去重庆的房产税政策并没有使得重庆的房价下降,因此,就得出房产税无效的结论。

   这种简单的对比是错误的,房价没有下降并不代表房产税没有效应,两者不可以简单地等价。按照科学意义上的评估方法,房产税的效应应该是比较重庆实际房价和假设没有房产税时的房价,当我们简单对比房产税前后的实际房价时,就隐含了一个重要的假设,那就是假设没有房产税时,重庆2011年的潜在房价水平应该跟2010年相同。但由于存在时间趋势和共同冲击两个因素,重庆2011年的潜在房价水平应该远远高于2010年。通俗来说,有房产税时的重庆房价上涨了11%,假设没有房产税,重庆的房价可能上涨了15%,此时4%的差距(15%-11%)才是房产税对房价的遏制效应。现实世界中,我们是无法知道假设2011年没有房产税时的重庆房价,不过我们还是可以大体上用其他城市的房价对重庆的趋势进行判断,与重庆相邻的成都市,其2011年的房价上涨了13%,是大于有房产税的重庆市的房价上涨幅度的,趋势上来说,重庆的潜在房价上涨幅度应该是超过11%,房产税政策是有效果的。因此,简单进行纵向对比,严重低估了重庆房产税政策的效应。

   政策评估的科学方法,其本质上是要找到反事实参照组。反事实参照组要满足两个基本条件:一是要保证呈现反事实的特征,即一旦实验组没有受到政策影响,实验组的结果应该与反事实组是完全一致的;二是反事实参照组不能受到实验组的影响,即那些受到政策干预的人群不能把这种影响传递给其他人,理论上是允许实验组内部的互相影响,但如果这种影响外溢到参照组,无论这种外溢是主观还是客观原因,都会导致对政策效应估计的偏误,一般情况下都是低估了政策的效应。例如在房产税的例子中,重庆和上海实施了房产税之后,如果这些城市居民可以非常容易地到其他城市购房的话,那么在重庆和上海的房产税政策的效应就外溢到了其他城市,不过幸运的是,由于大多数城市都对非户籍居民采取限购房产的政策,因此房产税的外溢效应是比较小的。

   显然,按照“穿越剧”的方式构造反事实参照组是不现实的,不过我们还是可以基于这样科学的视角,采取其他类似方法来构造一种近似的“穿越剧”。常见的构造方法有两类:一是通过数据筛选的方法,二是随机试验的方法。数据筛选的最佳例子是同卵双胞胎的数据,这一数据构造借鉴了医学和药物学的科学方法。在药物进入临床应用阶段,需要对药物的实际效果进行评估,因此需要招聘一些志愿者来服用药物,但是不能简单根据志愿者报名的情况直接进行药物试验,因为我们无法排除志愿者自身的特征对药物作用的影响。因此,在最理想的情况下,药物公司需要招聘一些同卵双胞胎的群体,给予双胞胎的其中一个服用药物,而另一个则不服用,在一段时间之后再评估他们的各项指标。不过,这里面还要进一步排除心理因素的作用,即那些服用了药物的双胞胎个人可能因为自我心理暗示,导致实际作用大于药物作用,这样也会高估药物作用。因此,一个完美的实验,除了需要双胞胎的组别之外,还不能让参加的那组人干扰药物实验,如果这样的话,则还需要进行安慰奖检验(Placebo test)的设计。具体来说,就是要给予双胞胎组别同时服用,其中双胞胎的一半服用真实药物,另一半服用一种外形无差别的糖丸,双胞胎的两方都以为自己服用了药物,心理干扰因素的作用对两方同时存在,他们事后的差异就完全是药物的作用。

   第二种构造反事实参照组的方法是随机试验,更准确地说,是随机干预实验(Randomized ControlledTreatment, RCT)。该方法最近几年在发展中国家非常盛行,由于其相对清晰和简单的实验设计,也被世界银行大范围应用于一些扶贫项目的效应评估。这一方法的核心在于“随机”二字,采用的是统计学的原理,即如果可以用随机的方法来选择哪些人群接受政策干预的话,同时保证受政策干预的人群数量足够大,那么从统计学上,就可以将随机分组的结果等同于政策效应。我们同样以表1的就医为例,如果采用随机试验的方法,应该是针对那些有就医需求的所有人群,通过抛硬币的方法来决定是否可以去医院,例如当抛硬币为正面时,就可以上医院,如果为反面,则不能上医院,由于抛硬币的正反面结果是一个随机冲击,因此对那些有就医需求的人群通过抛硬币的方法,就是一种随机分组,我们事后来评估有就医需求并去医院(正面硬币)和有就医需求并没有去医院(反面硬币)的健康差异,就是医疗对健康的实际改善程度。

   这两种构造反事实组的方法虽然能够满足科学评估的要求,但在政策评估方面的应用性不强。同卵双胞胎的数据筛选方法局限于就业和收入方面的应用,例如可以评估教育(上大学)或党员身份对收入的影响,但由于绝大部分同卵双胞胎都在同一个辖区,大多数的政策又是对该辖区进行全覆盖,因此很难找到同一组双胞胎受不同政策影响的数据。随机试验方法的应用性比数据筛选方法好一些,但也存在另外两个问题:一是面临伦理难题,例如前面的就医例子,采用抛硬币的方法,就是一个伦理问题;二是很多随机试验,在操作过程中很难完全满足随机性的要求,为了操作便利性,一些随机试验并不是在个体层面随机筛选,而是在村镇甚至更加总层面的随机筛选,这就在一定程度上损害了该方法的科学性。

   

二、常见的几种评估方法和案例剖析


   绝大多数的政策并不是根据评估的要求来实施的,因此政策评估的数据并不是一种实验数据,而是一种观测数据,即政策实施之后收集的数据。在大多数情况下,政策评估方并没有直接参与到政策的设计和实施过程,无法按照科学评估方法的要求来构造和生产数据,因此任何利用观测数据的政策评估就必须非常小心和科学论证,针对不同的数据结构和政策类型采用不同的评估方法,并反复检验该方法的适用性。

   根据政策实施的过程,可以将一个国家或部门的政策分为三类,不同的政策类型刚好对应了不同的评估方法。第一种是“先行先试”的政策,这类政策往往是决策层无法准确预判其社会和经济影响,政策的容错空间小,需要挑选一些地区或者行业做政策试点,如果试点的效果比较理想,则可以在全国层面推广,反之则不推广。例如,2016年5月1日在全国实施的“营改增”,就是在2012年开始进行试点的,1994年至2012年增值税和营业税并存的状况,严重阻碍了制造业和服务业的分工和发展,也导致了服务业的重复征税问题,因此将服务业的营业税改为增值税就显得非常必要。不过,这样的政策影响深远,具体政策细则上的细微差别就会对相关行业带来致命影响,并且如此重大的税制改革也会在短期和长期产生完全不同的效应,因此就需要预留一些时间窗口来观察实际影响。于是2012年1月1日在上海挑选了“1+6”个服务业行业首先进行试点,然后再逐步将这“1+6”行业推广到八省市和全国,再逐步扩围至电信、邮政等行业,2016年5月开始覆盖房地产业、建筑业、金融业、生活服务业最后四个行业,这样就完成了从先行先试到全范围推开的过程。

   第二种政策是“一刀切”,这类政策的实施往往是因为一些外在条件限制,无法在全部范围内实施,需要集中资源重点发展某些地区或者某些行业。“一刀切”的政策有两个要点:一是其门槛是非常清晰的,超过(或者低于)该门槛才会进入到政策范围;二是符合政策条件的那些群体会得到较多的资源支持。1994年实施的“八七扶贫攻坚计划”是典型的“一刀切”政策,按照前述的两个政策要点,“八七扶贫攻坚计划”对于贫困县的认定有非常严格的条件,规定1992年的人均GDP低于400元的县才能进入贫困县,反之,如果一个县的人均GDP超过400元,即使仅为401元,也会失去了贫困县的资格(具体实施过程有细微变化)。针对那些贫困县,中央财政在对地方进行转移支付时,会给予了额外的倾斜,使得这些贫困县获得了实质上的好处。“一刀切”的政策在产业发展中非常普遍,例如我国的高新技术产业、新能源产业等都制定了类似的准入门槛条件。

   第三种是一次性推开的政策,这类政策往往带有自上而下的特征,决策层对该政策的效应有充分的论证和把握,能够合理预期政策带来的冲击,并且做好了相应的备案,因此可以选择某一时点在全国范围内一次性推开。1994年实施的分税制改革就是典型的一次性推开政策,在1993年之前,我国中央财政与地方财政还是财政包干制,自1994年开始,全国所有省级地区与中央财政采取以税种划分的财政制度,分税制针对全国所有地区实施相同的分成规则,时间节点清晰明朗。同时,考虑到该政策给地方财政带来的冲击,分税制改革也做了相应的备案,以1993年为基数对地方财政进行税收返还,以缓和此次改革对地方财政带来的不利影响。

   严格来说,前两种政策是可以用科学评估方法对政策效应进行合理估计的,而一次性推开的政策是很难找到合适方法进行评估。接下来,本文将针对前两种政策类型分别介绍几种常见的评估方法,结合一些案例进行剖析,并重点指出各种方法应用的前提条件。

   (一)双重差分法

   双重差分法(Difference-in-difference,DID)有几种其他的称谓:倍差法、差分再差分等。该方法的原理非常简单,它要求数据期至少有两期,所有的样本被分为两类:实验组和控制组,其中实验组在第一期是没有受到政策影响,此后政策开始实施,第二期就是政策实施后的结果,控制组由于一直没有受政策干预,因此其第一期和第二期都是没有政策干预的结果。双重差分方法的测算也非常简单,两次差分的效应就是政策效应。如图2所示,AC是受政策影响的组别,BD是没有受政策影响的组别,我们在政策实施前后分别观察(收集)了一次数据,此时有两种差分的顺序,其结果都是等于CE的政策效应。第一种是先组内差分,再组间差分,也就是(C-A)-(D-B)=CE;另外一种是先组间差分,再前后差分,即(C-D)-(A-B)=CE。可见无论是哪种差分顺序,其结果是一致的。

   双重差分法并不要求实验组和控制组是完全一致的,两组之间可以存在一定的差异,也就是图中的A和B是可以不相等的。但是双重差分方法要求这种差异不随着时间产生变化,也就是图中的ED=AB。如果满足了这个条件,那么实验组在没有政策干预的情况,其潜在的变化趋势应该是AE,AE和AC之间的差异恰好也是CE。也就是说,当我们用双重差分方法来评估政策效应时,是将AE作为AC的反事实参照组,但是AE本身是不可观察的,此时如果实验组和控制组有相同的时间趋势,那么就可以用控制组加上一个固定的差异作为AC的反事实参照组,也就是AE=BD+AB。因此,双重差分法本质上是用控制组作为反事实参照组,与其他方法不同的是,该方法允许控制组和反事实参照组之间存在一定的固有差异,然后再用差分的方法剔除掉这种固定差异。

   这种方法可以进一步扩展到多时期和多政策实施点两种情况。常见的政策前期和后期,往往都是多期的,例如实施前存在3期数据,实施后有4期数据,这更加有利于精确评估政策效应。一方面,政策效应往往存在时滞,例如可能需要2-3年才会出现,因此需要更长期的跟踪数据;另一方面,政策效应还存在动态演变的过程,在实施之后的1-2年内呈现逐步强化的现象,3-4年逐步减弱。多期数据可以让我们精确估计政策效应在哪一期出现,同时在时间维度上呈现何种动态变化。此外,实际的政策实施也不是一次性的,往往是逐步增加试点的过程,也就是控制组逐步变为实验组;有些情况下,为了考察政策的力度,还会在同一期的实验组中,将实验组进一步分组,给予不同实验组不同的政策力度。通过一定的变通和扩展,倍差法也可以评估这两种情况下的政策效应。

   接下来,我们用一个案例研究来剖析这种方法在实际中的运用,这个例子通俗来说就是“跑部钱进”(范子英和李欣,2014)。我国1994年分税制改革以来,中央财政的集权程度得到强化,中央财政收入占据50%以上,但支出占比仅为30%,因此中央对地方的财政转移支付也随之快速增长;以2012年为例,中央财政收入5.6万亿,其中4.5万亿直接转移给地方财政,占地方财政收入的比重高达74%。我国现存三大类财政转移支付:税收返还、一般性转移支付和专项转移支付,在很长一段时间,专项转移支付占比都是最高的,超过了转移支付总额的40%;不仅如此,专项转移支付由于按照项目划拨的方式,因此缺乏规范的分配方案。

   在具体的管辖范围上,税收返还和一般性转移支付都是财政部主导,专项转移支付则分散于各部委。对地方财政来说,中央的转移支付数额庞大,并且几乎是没有成本的,因此各地都有“跑部”的激励。加上专项转移支付分配方案模糊,就产生了“跑部”的空间。“跑部钱进”是一个世界现象,美国的国会委员会在分配联邦财力时,也会受到“跑部”的影响。但是,要想评估我国的“跑部钱进”却没那么简单,因为各地都在“跑部”,不存在一些地区“跑部”,另一些地区不“跑部”,因此,从政策评估方法论角度来说,我们很难找到“跑部”的实验组和控制组。

   考虑到各职能部委在专项转移支付分配中的重要作用,同时作为“一把手”的部长在相应领域的专业性和权威性,我们可以利用部长的差异来区分实验组和控制组。具体来说,我们收集整理了1998—2007年间国务院所有部委部长的个人信息数据,将部长的出生地与相应地级市进行匹配,在其他条件不变的情况下,我们重点研究了部长在分配转移支付时如何“照顾”其家乡。为了获得更加清晰的政策效应,我们以2003年的政府换届为政策实施点,在2002年年底至2003年两会期间,有17个部委更换了部长,涵盖主要的实权部门,如发改委、财政部、劳动和社会保障部等。如图3所示,我们将那些在2002年之前没有部长、之后有部长的地级市作为实验组,将一直没有部长的地级市作为控制组,可以清晰看出在部长换届之前,两组城市获得的专项转移支付没有差异,在换届之后,有部长的地级市获得了更多的转移支付。平均来说,部长会使得出生地城市的转移支付增加28%,如果是重要部委,增幅高达130%。从图3也可以看出,这种效应呈现先增后减的“U”型特征。

   (二)断点评估法

   断点评估法(Regression Discontinuity,RD)是近年来最为流行的方法,该方法具备简单、直观、适用性强等优点,被广泛应用于各国相关政策的效应评估中。断点评估法特别适用于“一刀切”的政策,根据“一刀切”门槛的执行程度,可以进一步分为模糊断点评估法(Fuzzy RD)和清晰断点评估法(Sharp RD)。为了更直观理解该方法的内涵,我们重点介绍清晰断点评估法。

   断点评估法的核心内容是两部分。首先是要判断政策的“一刀切”是如何确定的,如图4所示,政策制定者选择某个因素作为门槛的基础,然后在该因素中选择某个具体的值作为政策门槛,规定所有大于等于门槛C的个体都是政策干预的范围,而任何低于门槛C的个体都不会受到政策的影响,因此低于C的个体受政策干预的概率为0,大于等于C的个体受政策干预的概率为100%。断点评估法的“断点”则是特指门槛C的左右一个很小的区域,在该区域内,是否受政策干预的概率会有一个显著的跳跃。举例来说,假设今年的高考录取线为500分,则所有大于等于500分的考生都能够进入大学,而所有低于500分的考生则无法被录取,此时,500分就是高考“一刀切”的门槛,500分左右的一个小范围则是断点区域,例如495-499的录取概率为0,而500-504的录取概率跳跃至100%。

   断点评估法的第二部分内容是在断点左右观察政策结果的变化。如图5所示,其中纵轴是政策的目标变量,横轴同样是政策门槛的选择因素,图中的实线是驱动因素和政策因素对结果的共同作用。驱动因素在C之前,其政策结果是从A到B,此时的AB段是一个平滑的演变分布,当驱动因素达到和超过C时,政策结果就变成了DE,同样是一段平滑分布,断点评估法的政策效应就是门槛附近的跳跃,即BD是该政策实施之后的真实效应。如果用前述反事实的原理进行阐述,则BF是DE的反事实结果,也就是说,如果没有“一刀切”的政策,则政策结果应该是ABE,是一段完全连续的平滑分布。不过,BF在现实世界是不存在的,不是观测的结果,就无法将DE和BF相减获得政策效应。幸运的是,B这一点是可以观测的,因此可以将B作为D的反事实结果,这样BD的差异也就是政策效应。

   还是以高考为例,此时的政策结果就是四年(或更远)后的收入,驱动因素是高考分数,C是大学录取线。平均来说,高考分数越高,说明能力和智商越高,因此收入和高考分数应该是正相关的。AB是那些没有考上大学的人群的收入分布,DE是上大学的人群的收入和高考成绩的关系,BF是假设没有大学时,那些高考成绩超过录取线的人群的潜在收入。在现实世界中,AB和DE是我们可以观测到的数据,BF是不可观测的(所有被录取的都上了大学)。此时,我们可以计算500分(上大学)和499分(没上大学)两组人群的收入差异,由于两者的高考分数仅相差1分,可以认为两者之间的能力和智商是几乎无差别的,两组之间的收入差异就只可能是因为大学教育带来的,因此BD就是高考这种公共政策的政策效应。

   断点评估法的一个经典案例是关于污染的健康损失效应的研究。由陈玉宇、李宏彬和另外两位作者2013年发表在美国科学院院刊PNAS的论文,采用的就是断点评估法。具体来说,污染对健康的实际影响是非常难以估计的,且影响程度的估计,有时候,连方向都是反的。这个问题的研究,最直接的方法就是在选某一年城市层面的数据,例如PM2.5和预期寿命,看看这两个指标是否负相关。如果在实际中这么处理,一般来说,这个系数都是正的,难道我们能据此得出污染有益于健康的结论么?很显然,这个处理方法犯了上文提到的一些基本错误,其中最典型的就是忽视了其他因素的作用,例如大城市往往也是医疗条件更好的地方,医疗条件会改善健康。即使我们考虑到城市层面的一些特殊因素,简单的统计和经济学方法依然不能准确估计出污染对健康的危害。

   我国历来有北方冬天集中供暖的制度安排,当然由于燃料资源的有限,这种供暖政策只能覆盖全国的一部分地区,因此供暖政策就必须有一个清晰的标准,做到北方供暖、南方不供暖。接下来的问题就是,什么是北方?在20世纪50年代,国家按照地理上的秦岭-淮河为界,将全国分成了南方和北方,相应的供暖政策就变为淮河以北供暖、淮河以南不供暖。再加上,当时的冬季供暖基本都是靠煤,煤燃烧不彻底释放了大量的污染物。因此这种供暖政策的一个自然结果就是,淮河以北的城市的空气污染更加严重,如下图所示,他们的研究发现淮河北岸城市的空气悬浮颗粒物浓度更高。在经过长达数十年的持续暴露之后,这种持续性的污染对健康造成了严重的危害,平均来说,淮河北岸的人相对于南岸,其预期寿命要少5年。

   这个研究之所以适用断点评估法,是因为以淮河为界的政策是“一刀切”的,在未实施集中供暖政策之前,淮河南北的城市之间差异很小,特别是淮河沿岸的城市之间几乎没有差异,因此淮河南岸的城市可以作为北岸城市的反事实参照组,这句话也就意味着,假设没有集中供暖这一政策,淮河北岸城市的污染水平和人均预期寿命,和南岸城市是完全相同的。当我们发现政策实施之后,两者之间的污染和预期寿命均有差异,那预期寿命的差异就只可能是由污染导致的。在理想的情况下,这样的研究设计应该还能够较为准确地估计出,空气污染每恶化一个单位对健康的影响程度。

   断点评估法有三个基本的要求。首先是“一刀切”的政策执行力度要彻底,以高考为例,不能存在没达到录取线的学生被录取、达线的学生却没录取的情况,政策执行力度越弱,断点的跳跃就越小;其次,选择门槛的依据要素必须是个体不能改变的,例如在高考后才公布录取线,考生能否过线是既定事实,反过来说,如果事先公布录取线,就会使得那些比录取线低几分的考生,通过一些努力达到录取线;最后,那些影响政策结果的其他因素,不能也在门槛附近出现跳跃,比如考生的家庭财富如果在录取线附近突然增加,那么考生将来的收入就不一定是因为大学教育的效应,而可能是其家庭财富带来的。

   (三)合成控制法

   还有一类政策的试点过程是非常独特的,那就是仅选择一个或者两个地区作为试点,例如2008年世界金融危机时,就只有中国实施了“四万亿”这样的强刺激计划。前两种方法都不适用于这类政策的效应评估,我们很难从其他没有试点的地区找到合适的反事实参照组,这是因为此试点地区一般都非常特殊,严格来说,没有其他地区与试点地区是完全相似的。考虑到这种特殊试点政策在我国也非常常见,本文接下来将介绍针对该类政策的评估方法:合成控制法(Synthetic  Control Method)。

   我们以一个具体的研究案例来阐述这种方法的原理和应用,这个案例是我们的一个研究论文的内容(刘甲炎和范子英,2013)。自2000年以来,我国的住房价格持续走高,国家多次出台调控政策以缓和房价的上涨势头,房产税成为政策选择之一。中央政府希望通过对住房持有环节征税,一方面通过增加住房持有成本、打击投机炒作,引导居民合理性住房消费;另一方面还可以取得稳定的地方税收来源,弥补地方主体税种的不足。在2010年5月国务院提出要推进房产税改革,扩大原有的房产税征收范围,将个人所有的居住房产也作为征收对象。2011年1月国务院开始在部分城市试点房产税的征收,重庆和上海成为首批试点城市。这两个城市的入选主要有两个方面的原因:一是两者都是直辖市,在行政上更有利于管理;二是两者的房价具有很好的代表性,上海市作为东部沿海城市,房价水平是最高的几座城市之一,重庆作为西部城市,房价处于全国平均水平。两个城市的政策细则如表2所示,最大的差异在于重庆是存量征税,上海是增量征税。

   考虑到重庆和上海的特殊性,我们可以采用合成控制法来评估政策效应。合成控制法与倍差法有两个主要区别:首先是权重的设定,倍差法的控制组的权重是完全相同的,例如选择10个城市作为重庆的对照组,那这10个城市权重都是1,而合成控制法则根据相似度来赋予权重,与重庆越相近的城市的权重越大,反之亦然;其次是控制组的选择,倍差法的控制组是主观选择的,合成控制法的控制组是数据驱动的,即由数据自身来选择哪些城市可以成为重庆的控制组,同时根据相近程度赋予相应权重。

   我们通过合成控制法评估重庆房产税的政策效应,结果见图7。首先是利用2010年6月到2011年1月的40个大中城市来选择控制组和相应的权重,该过程的主要参考依据是,控制组的加权房价应该尽可能与真实的重庆房价相等,在图7中就是2011年2月之前的虚线要与实线尽可能接近,这个规则可以保证控制组和权重的选择是最优的。其次,基于选择的控制组和权重,再利用2011年2月之后控制组加权房价来外推重庆的反事实房价,也就是图7中2011年2月之后的虚线部分。该虚线部分说明的是,假设没有房产税,那些影响其他城市房价的因素也会同样影响重庆,这样从其他城市房价外推的重庆房价,就是没有房产税时的价格。因此,重庆房产税的效应就是2011年2月之后,图7中虚线高于实线的部分。

   该方法的应用需要配合其他的证伪检验,即需要排除其他可能导致房价变化的共同因素。在合成控制法第一步完成之后,可以看到控制组中哪些城市的权重最大,我们可以将权重最大的城市挑选出来,做一次假想实验。在重庆房价的这个研究中,湛江是权重最大的城市,我们假设湛江在2011年2月前后也发生了重大的政策变化,该政策变化影响到湛江的房价。如果不是我们在图7中看到的重庆房产税政策效应,就可能是其他政策导致的,因为湛江没有实施房产税政策,却在2011年2月后保持了与重庆类似的趋势。具体结果如图8,可以看出湛江的房价并没有出现显著变化,这说明没有其他因素导致控制组房价发生变化,因此由控制组拟合的重庆房价就不存在其他政策干扰。

   该方法的应用范围虽然很广泛,但也存在一定的限制。其中,最大的限制是无法应用于极端样本,例如该方法就不能用于上海房产税政策效应的评估,因为上海的房价是全国最高之一,很难从其他城市中找到足够与上海房价相似的样本,因此就无法选择控制组和相应的权重,这会导致第一阶段的拟合效果非常差,而第一阶段的拟合效果直接决定了第二阶段的线性外推。从操作层面来说,这种限制是因为控制组的权重都是界于0和1之间,如果放松这个假设,相应的应用限制也就不存在。

   以上这三种方法有各自的适用范围,也有各自的前提条件。从因果推断的效率来看,断点评估法是最优的,其次是倍差法,最后是合成控制法。在一些更为复杂的应用中,还可能将倍差法和断点评估法结合使用,例如政策不仅存在“一刀切”,这种“一刀切”还只适用于很少一部分人群。此外,从因果推断的完整性考虑,在评估了政策效应之后,还要强化证伪检验,从逻辑上排除干扰因素的影响。

   

三、科学评估方法的应用前提和要点

   

   中国的政策研究和评估,是需要有科学方法为前提的。但是方法本身是工具性的,方法论的发展都是中性的。我们在提倡大力普及科学评估方法的必要性时,也要非常清楚每一种方法的适用性,那些用错了方法的政策评估,其危害甚至要超过没有用这些方法的状况。我们可以将以上这些方法的应用前提总结为最重要的一点:反事实假设。所有的方法应用,如果能够满足这一基本假设,那么其应用满足了基本的条件,方法的应用总体上不会出现逻辑上的错误。除此之外,我也想特别强调一下,有时候方法与制度要能够有机结合,每一种类型的制度和改革,实际上都有对应的方法,与其说是理解方法的应用前提,不如说是了解制度的细节。

   任何方法都有应用前提,同时也有其局限性。在我们使用这些方法评估政策效应时,也要在心里明白这些方法不能解决的问题,因此对结果的解读要非常谨慎,只能就结果解释结果,而不适合得出衍生性的结论。总体上,这些方法的应用,有两个方面要特别引起重视:再分配效应和外溢效应。

   再分配效应是政策评估的陷阱。很多时候,我们评估的单位是一个加总的层级,例如在县、市、甚至省层面进行评估,此时要特别当心再分配效应的捣鬼。所谓的再分配效应,是指政策或者改革虽然有明确的标准,但是由于人、企业和其他要素是可以自由流动的,他们会通过改变自身行为来达到政策的要求,如果这种流动本身是跟随政策走的,那么很可能政策本身并没有实际效果,而是政策导致了要素在不同地区的重新配置。但是,我们在简单的方法应用时,是可以看到政策起到了积极作用,方法本身并不足以排除这些干扰。我们再回到淮河的那个例子,如果这个研究放到2000年之后,就可能会出现再分配效应,因为人口是流动的,污染也是导致人口流动的一个重要因素,试想一下,如果那些关注健康的人都离开了污染重地,那么污染会对人群进行再配置,这种再配置就可能导致留在淮河北岸的人都是身体较差的人,而那些身体健康的人则搬迁到了淮河南岸。虽然我们这时也能够在政策评估模型中,得到北岸居民健康程度更差,但南北岸的这种差异却不完全是因为污染的直接影响,很大程度上是因为政策前后的人群分布发生了变化。

   又例如,我国自2000年左右,开始实施区域性的发展战略,现如今快20年过去了,这些政策是否达到了预期的目标,这个问题本身是没法从宏观加总层面直接得到答案的。试想一下,如果我们也采用第二节的方法来评估西部大开发或者中部崛起,很显然,我们可以得到正向的系数,也就是那些有区域发展战略的地区,其增长相对于东部地区会更快,这一点也反映在近年来人均GDP的收敛。但是这并不完全等价于这些政策促进了内陆地区的发展,现实中,有很多企业因为内陆地区更优惠的投资环境,从东部搬迁到了内陆省份,这些更优惠的投资环境正是地区战略的重要组成部分,这时候就产生了再分配效应。也就是说,区域性的发展战略对原有的企业进行了空间的再配置,这实际上就对那些没有区域政策的省份带来了负面影响,我们在研究上得到的政策影响,是欠发达地区的正面效应,减去发达地区的负面效应,很显然这高估了政策效应。

   外溢效应是与再分配效应相反的,再分配效应一般是导致了高估,外溢效应则是低估。从学术研究的角度来说,外溢效应影响不大,但是从政策研究的角度来说,外溢效应导致的低估,还是会对政策的把握出现偏差。外溢效应是指那些被政策干预的组别,通过其他渠道,把政策的影响也传递给了非政策干预组。在逻辑上,我们是将非干预组作为干预组的反事实参照组,这就是说,假设政策没有实施,那些干预组的表现,就应该和非干预组是一样的,但如果出现外溢效应,这一假设也不满足。我们可以举个例子来说明外溢效应的影响,比如,我们想评估一下中国高速公路对地方经济的拉动作用,进而为中国高速公路建设提供一些理论支撑。简单的处理方法,是比较有高速公路经过的县,和没有高速公路经过的县,两组之间的区别,如果再复杂一点,还可以加入两组县在高速公路开通之前的经济表现。一眼看上去,这是一个标准的双重差分法。但这里就出现了外溢效应,比如A县有一个高速公路出入口,B县没有,但是一旦A县的出入口开通之后,B县可以经由A县的出入口使用高速公路,因此A县的高速公路对B县带来了外溢效应,此时,我们比较A县和B县的差异,就包含了这种外溢效应,由于B县的表现比没有高速公路时更好,所以外溢效应会导致对高速公路的低估。

   如果以发展的眼光来看待政策评估,一些原有的方法局限也在不断被突破,新的方法不断出现,这对我们在中国大范围推广和普及科学评估方法是非常有利的。我们在第二部分曾经提到,有一类改革是不适用传统的评估方法,那就是一次性推开的政策,但在满足一定条件下,这些政策也可以在一定程度上得到估计。同样,在公共经济学领域,越来越多的人开始关注一些政策带来的交易的聚束(Bunching),这种聚束可以用来评估人们对政策的反应程度,例如,当我们要评估个人所得税多档税率的影响时,我们是不能用传统的政策评估方法,因为个人会出于避税的考虑,将其应税所得降到某一档较低边际税率的范围,此时我们就能够观察到,在税率级次的左边,人群会出现非常明显的聚束,如果我们能够计算出这种聚束的幅度,就能够用来估计个税税率对劳动者产生的负向激励作用。

共[1]页

范子英的更多文章

没有数据!
姓名:
E-mail:

内容:
输入图中字符:
看不清楚请点击刷新验证码
设为首页 | 加入收藏 | 联系我们 | 投稿须知 | 版权申明
地址:成都市科华北路64号棕南俊园86号信箱·四川大学哲学研究所办公室 邮编:610065
联系电话:86-028-85229526 电子邮箱:scuphilosophy@sina.com scuphilosophy@yahoo.com.cn
Copyright © 2005-2008 H.V , All rights reserved 技术支持:网站建设:纵横天下 备案号:蜀ICP备17004140号