数据整理是实证工作中的重要而常常不受重视的一步。基本上所有的数据生产出来以后是无法直接做简单描述统计或计量分析的。这一步有一点像我们日常生活中的摘菜、洗菜。不管是家庭生活中或是顶级餐馆,无论食材多么新鲜,应该没有哪里的厨师是拿起刚采购回来的食材直接放锅里的。但另一方面实证分析,也没有多少菜谱会对食材预处理有过多描述。类似地,无论理论计量学、应用计量学、或是各个论文中对数据整理也多没有太多讨论。那么数据整理通常要处理哪几类的问题呢?

数据整理中最基本的三个部分包括:变量取值的处理、样本筛选以及对数据的基本熟悉了解。变量取值处理部分的主要工作包括虚拟变量的生成(比如性别变量转为女性的虚拟变量)、分类变量的转换(比如生成一组教育水平的虚拟变量)、缺失值的设置(不少数据库的缺失值是以类似999的值表示,需要转为程序认可的缺失值)。样本筛选部分很多情况下是根据具体研究问题而做出判断。

实证分析与规范分析的关系_中国开放式基金绩效评价理论与实证分析段文军pdf_实证分析

这前两部分的工作相对比较机械性,而后一部分对数据的熟悉了解则是一个不断反复的过程。一方面对每一个变量各自的分布特点需要能有一定认识,另一方面对研究涉及的主要变量之间的相关关系也需要通过各种设定反复理解。当然,如果有其他参考数据或者资料,最好比对其他数据或者文献进一步考察当前数据的可靠性。比如在劳动经济学中有很多关于教育回报率的实证研究,如果能做一些简单回归看看当前数据的回归结果是不是与文献中报告的基本符合,则会有助于我们理解当前数据的代表性。当然,如果有较大出入,也不必然是数据有问题,但确实是一个警示信号。

中国开放式基金绩效评价理论与实证分析段文军pdf_实证分析与规范分析的关系_实证分析

随着我们对数据的不断了解,不可避免的可能需要对变量取值处理以及样本筛选做一些调整。比如对教育的分组,在发达国家的文献中,通常最低一组都是高中或者以下,而在我国的相关数据中这样分组显然是不合适的。但至于说要不要把文盲与小学归为最低一组,还是分为两组,则需要反复实验,在考虑模型设定的简洁与刻画的精准两方面的考量下最终确定方案。在样本筛选方面,一个常常出现的问题是:我们是仅仅选择男性样本还是选择所有性别样本更好。在早期的劳动经济学文献中,几乎所有的实证研究都是仅仅选择男性样本,甚至是全年全职工作的男性样本。那么我们需要思考的是,为什么?理解文献中这些选择背后的思考,从而做出合适的选择是数据整理阶段的一个重要内容。

事实上,实证研究是一个不断反复的过程,很可能随着对数据对问题认识的准确,又需要回到起点重新调整变量处理以及级样本筛选。而随着数据的调整,很多我们对数据的基本认识又会发生变化。这也就是为什么有些有经验的实证研究学者拿到数据后不轻易跑回归,而是反反复复地熟悉数据。这很大程度上可以避免“先入为主”。一旦我们形成了一个偏误的认识,要想把这些认识彻底清理出我们的脑海往往会很困难。

实证分析_实证分析与规范分析的关系_中国开放式基金绩效评价理论与实证分析段文军pdf

随后举一个例子,Card and Krueger (1994,简称CK1994) 是有关最低工资对就业影响的一篇里程碑式实证研究。他们通过双差法对比美国两个临近州快餐店的员工人数得出最低工资提高不会降低就业的结论。由于这个认识不仅与我们对劳动力市场的基本认识不符,而且被包括美国在内的很多国家作为提高最低工资的依据,学术界对他们的研究做了认真地检验。2000年美国经济评论发表了Neumarkand Wascher (2000实证分析,简称NW2000) 对其实证的批判。而同一期Cardand Krueger (2000,简称CK2000) 又对NW2000做出回应及反批判。这三篇文章作为一组堪称学习实证研究的经典。其中CK2000对NW2000最有力的一个反批判就是从数据处理出发,指出其实证结果之所以不同完全是由其数据中某一个特定厂商提供的参照组数据导致。

“The differential employment trend in the BNW Pennsylvaniasample is driven by data for restaurants from a single Burger King franchiseewho provided all the Pennsylvania data in the original Berman sample.”

类似的例子还有一些。不过,可能与很多人的想象不同,实证研究绝不是做几个图表,跑几个回归那么简单轻松。越是高质量分析在数据的处理上越是考究,也越是能经得起时间考验。

祝大家周末愉快!

限时特惠:本站每日持续更新海量设计资源,一年会员只需29.9元,全站资源免费下载
站长微信:ziyuanshu688