王小鲁：收入分配不能躺在虚假数据上分析

FRANKSTON · 发表于 2010-9-6 14:01:16

王小鲁：收入分配不能躺在虚假数据上分析

2010年09月06日中证网

　　——答王有捐、施发启对灰色收入研究的商榷

　　近日，国家统计局网站上连续登出了王有捐、施发启两位统计官员对我的灰色收入研究报告的商榷(注：下称“研究报告”。该报告题为《灰色收入与国民收入分配》，全文载于中信出版社《比较》第48辑；为中国经济体制改革研究会课题)。随后，他们两位又共同署名，在统计局网站上发表了另一篇文章，表示愿意继续就此问题进行研究，并表示国家统计局准备采取措施来改善居民收入统计中的少报、漏报问题。

　　他们对我的研究报告进行公开讨论，以及关于改善居民收入统计的表态，是一种积极的态度，我非常欢迎。但这方面的讨论，并不仅限于统计数据的真实性问题，而是进一步关系到如何认识我国当前的收入分配状况、如何应对当前突出的社会矛盾、如何推进改革来解决这些矛盾。我在这方面的研究，也是基于这个出发点而进行的。但搞清真实情况、获得可信数据，是必要的前提。

　　因此，有必要把双方争议的一些问题搞清楚。本文对他们的商榷做一个回答，意在促使有关收入分配状况的研究更加深入，为解决这些问题提供条件。

　　1 现行居民收入统计是否真实反映收入分配现状

　　王有捐、施发启的文章都同意目前的居民收入统计调查“存在漏报和少报的问题”，“高收入群体也较少进入调查样本”；因此居民收入统计“可能存在低估的情况”。两位也认为笔者的研究报告“在估算我国居民实际收入方面进行了有益的探索，尤其在获取基础数据和推算宏观数据方面值得参考和借鉴”。“其采用居民家用汽车、商品住宅、出境旅游、银行存款等外部相关数据对我国常规住户调查居民收支数据进行验证的方法为我们提供了不同的思路和模式，值得借鉴”。在这些方面，我们有一定的共同认识。

　　但施、王前两文的重点，是批评我们的调查样本比国家统计局的调查样本量“明显偏小”、没有采取统计局所采用的随机抽样方法，因此“结果是不可靠的”，“估算结果明显偏高”。

　　如果结果“不可靠”，会有偏高和偏低两种可能。为什么是偏高而不是偏低？怎样算出来“明显偏高”？高多少？两位商榷者并没有做出解释，看来还是根据现有统计数据来判断的，就是说，似乎现有的收入统计仍然是可靠的，即便有偏差也不大。而笔者对高收入居民收入的估算“明显偏高”，也是相对于统计数据而言。这不仅与两位关于统计数据“可能存在低估”的说法有矛盾，而且涉及到一个关键问题：现行统计究竟是否反映了高收入群体的真实收入状况？这是需要搞清楚的。

　　长期以来，我国收入分配差距持续扩大，特别是灰色收入大量存在，严重影响了收入分配状况。但这些问题并没有从统计上如实反映出来，特别是对高收入居民的收入统计严重脱离实际，不仅低估了收入差距扩大的严重性，也造成不同统计数据间的严重冲突。下面是几个例子。

　　其一，据国家统计局公布的城乡居民人均收入和城乡人口数推算，2008年全国居民可支配收入总额不足13万亿元，而同样来自国家统计局的资金流量表数据，却显示住户可支配收入总额为18.2万亿元。后者是根据经济普查得出的，应该比较全面。但这就证明居民住户收入统计至少遗漏了5.3万亿元，漏掉了居民收入的近30%。类似情况已存在多年。如此严重的遗漏，还能认为是基本可靠吗？这一问题，《第一财经日报》在8月30日发表的《居民收入统计局两套数据打架 5.3万亿元差距待解》一文中已有论述。

　　其二，与其他宏观统计数据比较，会发现遗漏远不止5.3万亿元。以2008年数据算，全国居民储蓄总额(收入减去消费)在2008年为3.5万亿元，而当年仅城乡居民在金融机构的储蓄存款就增加了4.5万亿元，加上居民当年购买商品住宅支出(扣除银行贷款)，在股市、债市和实体经济的投资，手持现金等，实际的居民储蓄应该在11万亿元~11.5万亿元之间(未计算居民在国外的存款和投资)，是按居民收入统计数据计算的3.5万亿元储蓄的3倍以上。上述计算依据的都是国家统计局公布的数据，这类数据冲突近些年来一直存在。

　　其三，按人均可支配收入水平算，根据统计，2008年城镇居民人均收入只有1.57万元；其中10%的最高收入家庭，人均也只有4.36万元。这样的人均收入是如何支撑当年2万多亿元商品住宅销售的？是怎样把房价炒上天的？就算只有10%的最高收入家庭能够买得起房，这部分人的当年收入合计只有 2.3万亿元，在买了2.1万亿元的商品住宅之后，他们吃什么？喝什么？拿什么钱买汽车？拿什么钱出国旅游？新存入银行的4.5万亿元私人存款又是哪来的？

　　2008年，中国私人小汽车增加了560万辆，保有量超过2800万辆，而城镇10%的最高收入家庭总共不过2000万户。据悉，价值数百万的世界顶级豪华轿车劳斯莱斯，在中国的销量已占全球第三，仅次于美、英。

　　2008年，中国居民因私出国出境4013万人次，超过了同年美国出国人数(4002万人次)。据日本官方统计，2009年仅访日的中国游客有 110万人次，在日本境内人均花费11.7万日元，而美国游客在日本人均花费仅2.5万日元(2010年8月24日《参考消息》)。根据统计，中国城镇居民的人均收入只相当于美国人均收入的1/15，10%最富城镇家庭的人均收入也不到美国人均收入的1/5，怎么可能支撑这样的高消费，统计上解释得通吗？

　　据悉，2008年内地流入澳门的赌资就高达数百亿元。如果将其分摊给2000万个最高收入家庭，每户也有几千元。这些钱又来自何处？

　　仅此几例，足以说明关于高收入居民收入状况的统计数据已严重脱离实际。这种情况不改变，会掩盖实情，误导决策，带来严重后果。所以统计部门和经济学者的共同责任，是面对现实，搞清情况，不能继续满足于统计调查“样本量大”、“方法科学”等表面文章，回避这些尖锐的问题。

　　2 怎样评价抽样调查的可靠性？

　　施、王两文质疑研究报告的两个最主要理由，就是统计局住户调查样本量大，所采用的分层随机抽样方法“有着较严密的科学依据”；而我们的调查样本小得多，没有采取与统计局相同的抽样方法，对样本的选择“存在主观性”，因此缺乏可信度。但这些评论回避了两个最重要的问题。

　　第一，样本量大小，并不决定样本是否无偏。只有当不存在系统性偏差时，大样本才在精确度上更占优势。与2亿城镇居民家庭相比，统计局6.5万个住户样本也只占万分之三。但这个样本目前的问题，并不在于样本量大小，而在于大量遗漏高收入户。首先，由于在抽样过程中频繁遇到高收入居民拒访，而替换的样本不可能保证同样的收入水平。这就必然导致样本覆盖面的系统性偏差。在这种缺陷未被纠正的情况下，样本量再大，也不能提高其可信性。

　　第二，抽样方法的“科学性”，不能弥补数据失真导致的非抽样误差。目前统计局样本的收入数据，根据的是样本户的填报。而我们在调查中发现，如果没有有效措施，70%的高收入户有低报收入的倾向，而且报出的收入与他们的真实收入平均相差几倍。但在此之前，我们未曾听说统计局针对低报收入采取过措施。

　　王有捐先生在文章中说：“65000户样本量对全国和分省(区、市)有较高的代表性，在置信度为95%时，主要收支指标的抽样误差(不含漏报、少报等产生的非抽样误差)在5%以内。”但现在的主要问题恰恰出在“漏报、少报等产生的非抽样误差”。避开这个主要问题，抽样误差再小也没有意义。就像医生给病人开错了药，药品质量再好也不解决问题。对于抽样调查的评价，首先应该是结果的真实性，而不能满足于理论上的“科学性”。

　　我们的研究项目在抽样和推算方法上所做的探索，正是针对高收入样本容易遗漏和收入数据不真实这两个关键问题。我们如果采取与统计局同样的随机抽样方法，也难免同样的系统性偏差。因此我们针对不同收入区间设立了样本配额，以确保不遗漏高收入样本；同时借鉴了社会学的调查方法，通过各地的专业调查人员直接以他们熟悉的人群(亲属、朋友、同事、邻里)为调查对象来收集各项收入支出信息。由于调查人员基本了解调查对象的家庭经济状况，并存在一定的信任关系，使严重低报收入的情况大大减少。

　　提到社会学调查方法，不能不提到我国老一辈社会学家费孝通和他的著作《江村经济》。这本书是他对自己姐姐居住村庄的乡亲邻里进行调查的成果，成为一部解剖中国乡村经济有代表性、影响深远的著作。没有听说谁批评他的调查“样本太小”，“没有采用随机抽样方法”，因此“不科学”。这首先是因为信息的真实性和所反映问题的代表性。而这些并不是所有的大样本随机抽样调查都能做到的。国际抽样调查权威Kish在他的著作中，也没有不适当地强调抽样方法的 “科学性”，反而把它看做“‘自己创造的艺术’和它的科学性的结合”(Kish：《抽样调查》，中文版1997)。

　　在我们的调查中，为进一步降低敏感度，我们采取了匿名调查的方式，提供了信息保密和仅用于研究目的的承诺；在问卷设计上采取了先问消费、后问收入，先问分项、后问合计，不追问收入具体来源等调查方法。调查前，对各地调查人员进行了培训。调查后，对收到的问卷进行了严格的质量和逻辑检验，剔除了相当数量不合格问卷。所有这些措施，都是为了保证数据的真实性。这使我们得到的调查数据避免了严重的系统性偏差。

　　由于在特定条件下采取了这种非常规调查方法，我们深知虽然得到的数据比较可信，但样本分布并不代表城镇居民的总体分布，不能用来做总体推断。我们所采用的恩格尔系数法，就是在这种情况下所找到的一个解决问题的方法。由于基础数据的可信性和样本在不同地区、不同收入层次、不同职业身份的居民群体间分布的广泛性，我们能够用它获取收入水平与恩格尔系数以及其他参数间的真实关系，并基于这种关系来对一定居民群体的收入水平进行推算。

　　这一方法得到的结果，并不是一个总体推断，而是在统计局分组样本的基础上，利用统计局数据中可信度较高的变量(一个主要变量是恩格尔系数)来推算其真实收入水平，以校正其原来失真的数据。这一方法和总体推断方法得到的结果非常不同。这在报告中有详细的数据比较和说明。而施、王两位一直强调我们是在做“总体推断”，说“不是直接推断也是间接推断”，是很不客观的。他们所批评的“没有采用随机抽样方法”，也并不构成我们这项研究的缺点，反而是在有限条件下能找到的一个验证统计数据失真的有效解决方法。

　　当然也要说明，这项研究的目的，是对统计数据的偏差进行检验并作出近似推算，而不是要代替常规统计。作为一个民间研究机构，我们不可能拥有像国家统计局那样庞大的统计机构和遍布全国的调查队伍，不可能进行能与之相比的大规模调查。但我们充分相信，所得到的高收入群体收入水平的推算结果，远比现有的统计数据更真实，也能够为改善统计数据提供一个参考。

　　3 关于对研究报告的误读和错误解释

　　施、王两文，除了对我们的调查样本量和抽样方法进行批评外，还提出了另外几个理由说明研究报告的推算结果不可靠。但这几个理由都有商榷的必要。

　　1.王有捐文章说，我们的调查方法是通过“亲戚再找亲戚，朋友再找朋友”的“滚雪球”方法，不适合用来“推断总体”。

　　前面已经说得很清楚，我们并没有用自己的样本来“推断总体”。同时，我们的调查也根本不是王有捐先生所说的“滚雪球”方法。所有的调查都是由经过培训的各地调查员直接访问其熟悉的人群所产生，并没有经过任何中转。如果认真读过报告全文，应该不会产生这样武断的误解。

　　2.王有捐先生质疑我们的调查方法：“试想，这些不愿意向统计局调查员透露自己实际收入的高收入人群会仅因为调查员是熟人就如实相告？”显然是在暗示我们的调查方法可能也低估了高收入人群的收入水平。然而他却以此为理由证明我们的“估算结果有过高之嫌”，这显然是自相矛盾的。

　　王有捐文章还说，我们在问卷中询问住户是否愿意透露真实收入信息，是具有“明显的倾向性”、“诱导性”，却没有说出倾向何在。而且问卷中这个问题只作为参考信息，并不改变任何原始收入数据和推算数据。以此来说明我们的推算过高，是说不通的。

　　3.王有捐说，研究报告在使用外部数据时“不严谨”，把居民储蓄算高了。

　　其一，是说报告没有区分居民存款和公款私存。实际上从实行存款实名制后，公款私存的情况少多了。仍然存在的公款私存，一般无非是化“大公”为 “小公”，把公款变成某些单位人员小团体的消费资金，实际上就是灰色收入的一个来源。那么这还能算是“公款”吗？

　　其二，是说报告没有区分居民购房和单位购房。研究报告中计算的仅限于房地产开发商的住宅销售部分。即便是单位出钱为个人购买住宅，难道不应计入个人收入吗？

　　其三，是说报告没有区分股市的居民投资、企业投资和国外投资。这更不客观。研究报告中并没有把股市、债市投资全部算成居民个人投资，而是保守地假定只有1/3来自居民储蓄。这个估计也许不准确，但至少有高估和低估两种可能，而断定“高估”不知根据何在？

　　其四，说“房价收入比在中国的合理界限为3年的提法也有待于进一步探讨”。但报告中根本没有这样的提法，而是说“根据国外经验，通常商品住宅价格是居民家庭年收入的3~5倍，是可承受的价格”。上述说法不知来自何处？

　　4.施、王两文都说恩格尔系数与收入密切相关，但也受其他因素影响，因此用恩格尔系数法推算收入水平“存在明显问题”。事实上我们的研究通过模型分析法控制了影响恩格尔系数的多种因素，包括地区、城市规模(间接反映物价水平)、家庭平均教育水平、家庭规模、就业面等差异，在计算收入水平与恩格尔系数关系时已经排除了其他这些因素的影响。这再次说明两位商榷者或者没有认真读过报告全文，或者有选择地忽略掉了报告的某些部分。

　　5.施发启提出：“如果采用报告中的计算结果，2008年居民可支配收入占GDP的比重将达到73.9%”，太高了，因此证明计算结果不合理。但施发启文章的计算实际上是将居民收入上调，但假定GDP不变，才会得到上述比例。这个假定本身就不合理。报告中已作了说明，如果居民收入有大量遗漏，GDP核算不可能没有遗漏。例如，有的企业将内部人员的灰色收入或对外部的行贿等支出，以虚假发票报销等方式计入成本，低报了企业的实际增值，这些遗漏当然也不可能进入GDP核算。

　　6.施发启文章还批评说，我们的调查数据是来自受访者记忆，“没有统计台账”，“调查方法不规范”。但就是在调查规范、有统计台账的情况下，统计局的高收入居民收入数据发生了严重的系统性偏差。我们的调查把最主要的工作放在保证数据的真实性方面。虽然舍弃了统计台账的方法，凭记忆容易产生数据误差，但这种误差是随机的、双向的，既可能偏低，也可能偏高。在平均的意义上，它们会在很大程度上互相抵消。而系统性偏差是同方向的，不可能互相抵消。因此可以有把握地说，这种随机误差会远小于现行收入统计数据的系统性误差。

　　综上述，两位商榷者提出的论据，有的是对研究报告的误读或错误解释，有的是论据与结论南辕北辙。给人的感觉似乎是下结论在先，找根据在后，失去了学术上应有的客观性。

　　还有一点需要讨论，两位在共同署名的第三篇文章中声明，他们同笔者讨论的是居民收入数据问题，而不是灰色收入问题。而在我看来，这两者是难以分开的。虽然在统计上搞清灰色收入是很困难的事情，但鉴于目前灰色收入泛滥的情况，收入统计避开灰色收入就很难不失实。更重要的是，不澄清这些事实，躺在虚假数据上作分析，就无法合理应对收入分配状况恶化的挑战。

　　两位的商榷文章当然也提出了一些有价值的意见。例如，施发启指出，使用年平均人数计算比用年末人数计算更合理(尽管对结果没有重大影响)，也指出研究报告中虽然模型的解释变量系数通过了显著性检验，但模型拟合度偏低。王有捐认为，研究报告中用外部相关数据对收入数据进行检验的方法值得借鉴。这些意见是合理的，有益于这些问题的进一步研究。两位对于改善统计数据的表态，也使人感到我们之间存在共同的基础，希望保持交流，把收入分配状况搞清楚。

　　(作者系中国经济体制改革基金会国民经济研究所副所长)

swiper · 发表于 2010-9-12 00:57:29

学者统计，我国灰色收入竟占GDP17.2％，如何界定灰色收入，已成迫在眉睫的问题。

　　9月2日，“日记门”主角广西烟草专卖局销售管理处原处长韩峰在接受庭审时承认，自己曾收受“过年过节的红包，帮别人办事的感谢金以及礼品”，却反复强调“我认为这是严重违反纪律，但是并不算违法”。

　　同样，今年2月，重庆市司法局原局长文强也在受审中喊冤，称检方在对自己来源不明的巨额财产认定中，对“灰色收入”部分计算过少。

　　韩峰与文强的辩诉背后正是目前国内对灰色收入界定不清的现状。在违纪和违法之间，“灰色收入”这个词成为了贪腐官员的保护伞。

　　根据中国经济体制改革基金会国民经济研究所副所长王小鲁的调研，2008年中国居民收入当中的灰色收入规模大约在5.4万亿元，而当年中国国内生产总值(GDP)为31.4万亿元。

　　以此数据推算，灰色收入竟然占到GDP的17.2％———这真是一只超巨型的“恐龙”。

　　由于缺乏规范和到位的监管，这条巨型“恐龙”的体型在随着中国经济的扩张迅速增长。根据王小鲁做的同题调研，2006年中国灰色收入的规模约在4万多亿元，两年的时间，增加了近一万亿元。

　　灰色收入到底有多大？一时之间这个问题几乎成了天问。灰色收入规模不清，一方面是由于统计及其他原因导致的数据遗漏，另一方面，则缘于对灰色收入的界定不清。

　　中央党校教授林喆认为，黑色收入是不法收入；白色收入是公开透明的收入，是合法的；“灰色收入”则是介于这两者之间的收入。

　　北京盈科律师事务所刑法律师叶庚清结合多年办案经验给出的“灰色收入”定义相对更加明确。他认为，所谓“灰色收入”是行为人收取的，现行法律规范不认可其为合法也没有明确的法律规范认定其为违法或非法，但又是有违社会公平公正的、不合理的收入。

　　对于灰色收入，官方则至今没有明确的解释。今年两会期间，“规范灰色收入”首次被写入政府工作报告。正因为界定不清，在经讨论后“规范灰色收入”一词被删除。许多学者表示失望。

　　灰色收入何在？

　　由于概念不清，要对如此巨额的灰色收入进行结构性分析难度颇大。但有两点可以肯定：一是普遍性，“灰色收入”已经渗透到了社会各行各业，返点、好处费、感谢费、劳务费、礼金等名目繁多；二是权力特色，绝大部分灰色收入跟权力相结合，灰色收入的“趋权性”非常明显。

　　王小鲁在其报告中提到，灰色收入大致来说有两种情况：第一种是现实生活中有些收入，由于在制度上或法律上没有明确界定，因此处在合法与非法的中间地带。

　　中国社会科学院人口与劳动经济研究所所长蔡昉在接受采访时举了一个形象的例子。“比如说我现在来了一个客人，提了一些很贵重的东西，但是如果说他真的是我的亲戚，那这些就是我的白色收入，是礼品；但是如果我是发改委的，管投资的，他是做企业的，我正好可以帮助他，那这就是灰色收入。”

　　此外，有些政府机关或具有垄断地位的国有企业，慷公共资金之慨，以种种名义给官员、企业管理层或职工提供远高于市场常规的福利或额外给付，可能还逃避了纳税，这实际上侵害了公众利益。

　　王小鲁提出的第二种情况，是某些怀疑为非法的收入，在来源不明而不能认定其非法的情况下，也只能作为灰色收入来看待。例如频繁出现的通过内幕交易、虚假拍卖获得的地产收益，通过内线消息、散布虚假信息、操纵市场而在股票市场、期货市场上获得的暴利，以及政府官员以权谋私，通过钱权交易获得的利益等等。

　　寻求“缚龙之术”

　　难区分并不等于不能够区分。事实上，目前已经有许多尝试在进行。刑法中巨额财产来源不明罪最初设立就剑指国家工作人员灰色收入中的非法部分。

　　所谓巨额财产来源不明，指的是国家工作人员的财产或支出明显超过合法收入，且差额巨大，本人不能说明其合法来源。对于“巨大”的标准，目前执行的是30万元。

　　巨额财产来源不明罪最早设立于1988年，虽然是个独立罪名，但在此后20多年来几乎从来没有单独使用过，而基本依附于贪污、受贿等主罪。在许多著名的贪腐案件中，同时附带着一个巨额财产来源不明罪。这样就使得巨额财产来源不明罪成为巨贪的“救生圈”和“保护网”。

　　原因很简单，贪污受贿犯罪的刑罚最高可达到死刑，而巨额财产来源不明罪在2008年刑法修正后才由最高五年刑期提高到十年。由于两者处罚差距较大，腐败分子常常抱有“只要闭口不说，检方查不清，顶多判五年或十年”的心态。

　　对于规范灰色收入，国际上有不少案例可以借鉴。新加坡《反贪污法》规定，在公务员不能说明其财产合法来源时，一律视为贪污所得。其《公务员纪律条例》规定，因公务接受的礼品必须如实报告，价值超过50新元必须交公，否则就以贪污受贿罪论处，面临5～7年的牢狱之灾，还要将入职以来每月薪金的 40％比例积累下来的全部公积金和养老金上缴国库。美国、韩国等都有类似规定。

　　国内学者呼吁，中国也应该设立法律法规，对官员收受礼品礼金的情况，在情节和金额上划定一个合法的界限，并建立可行的监督办法。

　　对于更为广泛的、散布于各行各业的灰色收入，如红包、返点等，除加强行业监管外，建立严格的财务和税收制度是一个可行之法。

　　延伸阅读：一个购物卡黄牛眼中的灰色收入潜流

　　假装欣赏面前五颜六色的时装，赵华(化名)警觉地扫视了一下周围，尽量不露痕迹地尾随着一名衣着入时的中年女顾客。当她拿着购物小票去收款台交钱时，赵华迅速地贴上去。

　　这里是北京市崇文门附近的庄胜崇光百货商场。赵华的“工作”就是找到那些持购物卡的顾客，以较低的价格购卡，再通过帮其他顾客刷卡的方式换取现金，赚得差价。

　　像赵华这样的专收购物卡的黄牛在北京有多少个？现在还很难有精确的统计。但据记者在北京北辰购物中心、双安商场、王府井百货大楼、新世界商场、庄胜崇光百货商场等各大商场的实地观察，这里都有黄牛出没。

　　“反正市场挺大的，哪一个人也做不完，大家一起做呗。”赵华说。

　　在黄牛红火的“生意”背后，是巨大灰色收入一路绿灯地涌流，通过黄牛“变现”，悄无声息地流入了私人腰包。

　　据记者了解，黄牛收购的购物卡较少是普通单位以过节费形式发放的购物卡，大部分是数额上千甚至最高达9999元的购物卡。

　　而什么人有可能一次就收到上万元乃至更高的节礼呢？答案很明显。

　　从办卡到送卡再到变现，通过购物卡形式进行的贿赂一路绿灯地进行着，便捷又安全。

　　据《新华每日电讯》报道，涉购物卡贿赂犯罪已经呈现出办卡易、交易易、销赃易等流水性便利特征，值得关注。

　　据了解，发卡商场因为逐利，再加上没有相关法律政策进行规范，各商家基本上对办理购物卡不设任何“门槛”，相反是采用诸多促销措施，吸引人办理购物卡。

　　相对于现金和实物，购物卡行贿具有高度的隐蔽性，且追查难度极大。而由于黄牛的存在，受贿者只需出让很小一部分利益，就可以轻松兑现。

齐鲁晚报

账号		自动登录	找回密码
密码			注册

王小鲁：收入分配不能躺在虚假数据上分析

贪官救生圈：中国灰色收入到底有多少

浏览过的版块