近年生育率显著“回升”的由来——对2006年全国人口和计划生育调查的评价研究
郭志刚
【摘 要】文章用2006年全国人口和计划生育调查公开出版的数据集资料对该调查所反映的“近年生育率回升”结果进行了研究与分析。通过对该调查的抽样方法、样本分布等方面的研究讨论及与2005年全国1%人口抽样调查结果的比较,可以断定2006年调查在抽取样本上明显有偏,偏重反映了新近结婚并在户籍地家中怀孕、生育、哺育的育龄妇女,但严重遗漏了年轻、未婚的育龄妇女。因此,该调查显示的“近年生育率回升”主要是由于调查偏差所致,并不能代表全国的生育情况。文章分析了已婚总和生育率和常规总和生育率之间在水平及年龄模式上的差别,指出这两种口径的统计结果之间无可比性。
【关键词】 总和生育率 已婚生育率 样本偏差 总体代表性
【作 者】 郭志刚,北京大学中国社会发展研究中心研究员、社会学系教授。北京:100871
一、研究背景
自20世纪90年代中期以来,所有全国人口调查结果都一致显示生育率不仅下降到更替水平以下,而且总和生育率(TFR)一直处于1.5以下的很低水平。其间,方方面面对调查统计的出生漏报严重性存在着不同认识,因此实际上对全国真实生育水平失去了把握。在实际工作和舆论宣传中,有关部门一直采取总和生育率约为1.8左右的口径,但却又一直没有实际数据的支持,只能依赖于间接估计,而这些间接估计所用的数据和方法也同样存在一些问题。在这种情况下,2006年人口和计划生育调查结果突然显现了近年总和生育率飙升。这次调查的主要数据公报中说:“
人口低生育水平继续保持稳定,但近年有所回升。2004年、2005年和调查前一年(2005年9月至2006年8月)全国育龄妇女的总和生育率分别为1.59、1.74和1.87,总和初婚率分别为1.23、1.16和1.11,一孩总和生育率分别为1.07、1.23和1.32,表现出一定程度的初婚堆积和出生堆积。”(注1)
此次调查数据并未像以往那样公开向研究单位或研究人员提供,也全然见不到对这次生育率回升的认真研究,仅发表了一个主要数据公报和一本调查数据集(张维庆等,2008),这与以往各次全国人口调查后便相应产出一批研究成果形成了鲜明对照。这个生育率回升的调查结果不仅没有解决原来在生育水平和形势方面的争论,反而令人产生一系列新的疑问。
第一,有关部门多年来一直声称全国总和生育率稳定在1.8左右,认为从调查数据得到的很低生育率是严重的出生漏报所致。那么,2006年人口和计划生育调查取得近年较高的生育率是否表明这次调查数据质量提高了,因而取得了更真实的生育率水平呢?然而事实并非如此。正如其统计公布所述,2006年调查结果仅表明总和生育率在2004~2006年发生极为显著的飙升,但在此之前各年份统计却与其他调查得到的很低生育率并无二致。在这种情况下,恐怕就不能认为这次调查的质量比以前的调查更好,至少它并不能否定以往调查的结果。
第二,此次调查的主要数据公报及其他文件中均采用了“近年生育率回升”这种说法,而标志“回升”的不过是1.8左右的总和生育率。那么,采用“回升”的说法是否代表有关方面已经默认更早以前各年总和生育率是显著低于1.8的呢?然而各种迹象均表明并不是这样,因为在此之后有关方面对以往多年生育水平的描述根本没有任何变化,仍然坚持总和生育率一直稳定在1.8的说法。于是,这就产生了悖论:如果以往总和生育率本来就是1.8左右,那么2006年调查得出1.8的总和生育率,又怎么能说成是生育率回升呢?这里还必须指出的是,很多研究人员和计划生育干部并没有意识到这个悖论,因而产生了一种误解,以为这一调查终于证明了多年以来总和生育率一直稳定在1.8水平的说法,但这不过是一种错觉。
第三,就算接受近年生育率回升的说法,那么它到底是出于什么原因?是计划生育失控了?那么失控的重点人群是谁?重点地区在哪?它是出于前些年若干省份取消生育间隔要求形成了二孩生育堆积?或是某种原因导致了一孩生育堆积?抑或是因为富人超生或流动人口超生?然而,这一系列问题在长达两年的时间里并没有得到具体分析和回答。
第四,从人口研究角度看,这次调查似乎已经取得可信的生育率数据,既然水落石出,那么相应的讨论便可以停止,形成统一的认识。然而,在多年来各种全国人口调查结果中,2006年全国人口和计划生育调查是唯一“半个”得到总和生育率1.5以上结果的(注2)。由于最近几年来其他全国调查统计都与2006年调查结果大相径庭,差异之大远远超过抽样误差范围。那么在这种情况下,我们到底应该相信哪一种结果?
第五,2006年人口和计划生育调查本身采用了新的调查对象口径和方法,那么这些改变对其与众不同的生育率回升结果到底有什么影响?它到底是纠正了以往调查的偏差还是它自己产生了偏差?
尽管有这么多的疑问,本文将主要研究和解决以上的第四个和第五个问题。只要这两个问题能够解决,那么前3个问题便自然能得到答案。因此,本研究是对2006年人口和计划生育调查本身的评价研究,力图对这次调查得出的生育率回升的原因做出解释,揭示其所存在的样本偏差问题,从而对其生育率回升的统计结果做出一个客观的科学评价。
二、近年不同来源的生育率比较
我们先来对2006年人口调查公布的各年份总和生育率与其他来源的相应各年份统计进行一下对比(见图1 )。从图1 中可以看出,在2003年及以前各年,尽管不同调查的生育率统计或估计存在一定差别,但总和生育率几乎全都处于1.5以下,就是2006年调查结果也并不例外。所以,2006年调查结果不仅没有否定以往调查生育率很低的结果,反而是再次加以肯定。
在2003~2005年间,目前只有3种数据来源结果。图1 表明,在2003~2004年间的生育率动态上,根据2005年全国1%人口抽样调查样本数据重建的生育率估计与2006年人口和计划生育调查统计十分吻合,并且它们同时反映出总和生育率在2004年曾出现过了回升。但两者所反映的生育率回升幅度相差巨大。图1 中的全国人口变动调查生育率则是在2001~2004年缓缓提高,因而其2004年的生育率回升不太明显。并且其2004年的总和生育率水平与2005年1%人口抽样调查的估计值接近,而这两个结果不仅在2004年总和生育率水平上与2006年人口和计划生育调查结果相差很大,而且在2005年又下降到1.4以下(注3)。并且2006年人口变动调查的总和生育率虽略有回升,但仍处于1.4以下的水平。总之,2006年调查的生育率回升实际上从2004年开始与其他来源统计分道扬镳,在2005年总和生育率飙升到1.74。该调查的主要数据公报还特别说明,2005年9月至2006年8月期间的总和生育率甚至高达1.87。于是人口变动调查、2005年1%人口抽样调查与2006年全国人口和计划生育调查在2004~2006年的生育率变化趋势和数值水平截然不同。
图1 1995~2006年不同来源的总和生育率统计或估计
数据来源:
①国家统计局人口变动抽样调查:作者根据历年《中国人口和就业统计年鉴》或《中国人口统计年鉴》中各年的年龄别生育率计算。
②2000年全国人口普查:作者(2004)根据1‰样本数据用母子匹配法估计。
③2001年全国计划生育与生殖健康调查:丁峻峰(2003)根据调查数据计算。
④2005年全国1%人口抽样调查:作者根据其样本数据用母子匹配法估计。
⑤2006年全国人口和计划生育调查:张维庆等主编,《2006年全国人口和计划生育调查数据集》。其中2006年值引自该调查主要公报提供的调查时点之前一年内的总和生育率。
三、对调查分孩次生育率的分析
图2是2006年人口与计划生育调查数据集提供的分孩次总和生育率的堆叠图。为了了解该调查所显示的生育率回升究竟发生在哪一孩次上,在下面的讨论中,我们将生育率回升的年份(2004~2005年)作为分析重点。
对2006年人口和计划生育调查的各年份孩次别生育率变化可以概括为以下几点:(1)从图2 可以清楚地看到,一孩、二孩总和生育率在2004~2005年间都有所回升,而总和生育率回升主要原因是一孩总和生育率的显著提高。(2)一孩总和生育率回升又主要是因为发生了显著的一孩生育堆积(注4),即一孩总和生育率值出现大于1、甚至是显著大于1的现象。比如,该调查2004年和2005年一孩总和生育率都大于1。(3)这种一孩生育堆积现象是距离调查时点越近就越严重。比如,2004年一孩总和生育率已经略大于1,而2005年则跃升到1.227。此外,根据这次调查的数据公报,2005年9月至2006年8月的一孩总和生育率又提高到了1.32。这个现象很重要,它是探究这次生育率回升原因的主要线索之一。(4)这次调查显示的生育率回升期间的二孩总和生育率只不过比以往年份略有提高而已,并且很有可能与此间一些省份取消了二孩生育间隔限制有一定关系。而相应年份的三孩及以上总和生育率甚至呈现了持续下降的趋势。所以,2006年调查显示的生育率大幅度回升主要是由于样本中的一孩生育堆积,而这又并不能表明计划生育出现了失控。
总之,以上概括表明,要想搞清2006年调查显示出生育率回升的原因,就应该专注于分析这次调查中的一孩生育堆积现象。
图2 2006年人口调查的各年份分孩次生育率堆叠图
数据来源:张维庆等主编,《2006年全国人口和计划生育调查数据集》,中国人口出版社,2008年。
从人口统计学来讲,一孩总和生育率大于1是一种异常现象。总和生育率的含义本来是“如果一批妇女按照该年的年龄别生育率完成终身生育时每人将平均生育多少个小孩”。然而,一孩总和生育率大于1就表明这一批假想妇女将平均每人生育了1个多的一孩,但这种情况在现实中根本是不可能的。这种异常现象的发生主要是因为将实际中不同年龄妇女的生育率通过假设硬安在了同一批妇女的身上。尽管在实际中,这种一孩总和生育率大于1的情况很少发生,但是它的确发生过。早在20世纪50年代初和1959~1961年之后的年份都曾出现这种一孩生育堆积, 80年代全国生育率又出现过一次显著的一孩生育堆积现象,其中1982年的一孩总和生育率最高,达到了1.376,并且这种堆积现象几乎贯穿整个80年代。这种现象曾引发了中国人口学老一代学者在1984年左右关于总和生育率指标的一次大讨论,发表了不少专题论文。而国际人口文献中对总和生育率指标存在缺陷的讨论则更早、更多。
那么,首先提出的问题是,2006年全国人口和计划生育调查所显示的一孩生育堆积与中国曾出现过的几次一孩堆积是出于同样原因吗?似乎不太像。因为新中国成立初期、三年“自然灾害”之后及20世纪80年代初都具有十分类似的人口婚育方面的时代背景,即由于在此之前的战争、灾害和推行“晚稀少”政策都导致了大批育龄妇女晚婚晚育,形成了发生一孩生育堆积的条件,因此才能在困难时期过后环境改变及其他政策原因刺激下引发了一孩生育堆积。然而,90年代以来婚育年龄不断推迟虽然也形成了发生一孩堆积的人口条件,却很难找到触发其发生的社会和政策方面的诱因。随着社会发展,群众的婚育年龄还在继续推迟,而取消二孩间隔可能引发一定程度的二孩生育堆积,但与一孩生育堆积并无太大关系。更值得注意的是2006年全国人口和计划生育调查在调查方法上的变化及样本结构中的异常之处,它们也能形成统计上的一孩生育堆积。
四、调查口径的变化及其可能的影响
2006年全国人口与计划生育调查与以往人口调查不同,不再以“常住人口”作为调查对象口径,而是以“现有人口”为调查口径。这在调查方法上是一个重大变化。
人口普查或调查的调查对象口径基本上分为两种:常住人口与现有人口。其区别在于对近期流迁人口的处理不同。常住人口注重的是更经常的情况,比如户中年轻妻子因怀孕或刚生育需要照顾而暂时回娘家,会照样调查她的情况;而现有人口则注重于调查时点当时的情况,对上述那个年轻妻子则不做调查。只有当她的娘家户也被抽中了,她要在那里被调查。从原理上讲,如果抽样无偏,无论哪一种调查对象口径得到的样本都可以有效推断总体。但是,由于常住人口往往有较完整的抽样框,比如户籍登记表及各种管理形成的名册,而对现有人口则不容易有较完整的抽样框,比如调查地刚来的一户人口,或者有个年轻妇女暂时回娘家“坐月子”,就不太可能马上反映到抽样框中。因此根据中国人口的实际情况,以往人口普查和人口抽样调查一直都采用常住人口的口径。
由于近年来人口迁移流动进一步加剧,而且育龄妇女的迁移流动又有与结婚和生育关系极为密切的特点,所以以现有人口作为调查对象口径就可能不太适合于以生育率研究为目标的抽样调查。因为从现有人口的角度来看,近期内迁入或流入(包括返乡、回娘家等情况)到一个常住户的育龄妇女更可能是近期内结婚、怀孕或刚刚生育的妇女,因为她们尤其需要较好的居住条件和亲属的照顾;而近期流出打工的育龄妇女则不太可能是近期有过生育的妇女,并且外出“打工妹”不太可能是去一个常住家庭户。比如,有人会居住于打工地点的集体宿舍,有人与其他人共同租房居住,有人甚至并无固定居所。这些情况导致她们有较大可能并未列于现有抽样框中,因此要调查到她们相对较难。若从这种划分来看的话,就能发现前者的近期生育倾向较高,而后者则不太可能有近期生育。所以,育龄妇女的这种流动迁移选择性很可能会导致现有育龄妇女样本中近期生育数会相对高于总体情况,而同时又很容易漏掉近期没有生育过的人(如那些外出“打工妹”)。其结果,现有育龄妇女的抽样调查数据既可能高估近年生育率的分子,又可能同时低估了近年生育率的分母,两种潜在偏差结合起来会大大加剧高估近期生育水平的可能性。
用一个非常极端的例子来比喻这种增大生育率分子、减少生育率分母的现象。若到妇产医院对住院妇女进行调查,如果采用常住人口口径,那么几乎没有合适的调查对象;然而如果采用现有人口口径的话,住院妇女就都是调查对象。假定她们当中各年龄的妇女都有,并均有一半人即将分娩而另一半人刚刚分娩,那么其结果将是在调查之前一年的时间里每个年龄组都有半数发生了生育,于是各年龄的生育率都是0.5,其结果会导致TFR高达17.5。并且,由于现在我国每年一孩总和生育率约占总和生育率的2/3,那么这个妇产医院调查的一孩总和生育率就将为11.6,即“终身平均生育11个一孩”。如果追问这些住院妇女再往前一年的生育情况,那么她们将十有八九并无生育。这个极端例子表明,样本的高度选择性加上现有人口口径会导致总和生育率结果发生怎样不可思议的结果。就算这个调查统计完全真实,也不能用它来推断一般情况下的生育率。
由于2006年调查结果也表现出更早年份的生育率很低,而离调查时点越近则总和生育率越高,并且相应的一孩生育堆积也越严重,这种结果与上述极端例子存在一定的相似之处。那么它们结果上的相似性是否出于类似的原因呢?仅凭《2006年全国人口与计划生育调查数据集》提供的表格不足以完成这样一个复杂问题的研究,因此笔者曾根据2000年人口普查样本数据做过测算,这里仅简明扼要地介绍有关结果。
出生于本地并一直在此居住这一类的各年总和生育率变化呈现出稳定而缓慢地下降,而5年以前便来到本地者的各年份总和生育率曲线也相对稳定。但近5年内各年来到本地的育龄妇女的总和生育率均都呈现出各年份上极为显著而对称的大起大落,并且其总和生育率水平的峰值恰好是来到本地的同一年。这是一种规律性现象。所以无论以哪一年作为参照时间进行考查,都能看到新来的妇女显示出极高的总和生育率,而且伴随着严重的一孩生育堆积。原因是同年来到本地的妇女虽然年龄不同,但很多人都是初婚不久,其初育也相对集中。由于每年来到本地的人在育龄妇女中只占很小的比例,所以当她们合并到全体育龄妇女中时对总体总和生育率水平影响并不太明显。这个研究结果的推论是,要是所抽样本严重地偏重于新来的育龄妇女,那么就会导致近年总和生育率的显著提高。这时,样本统计结果只能反映样本本身情况,不能直接用于推断总体情况。
五、对调查样本的结构分析
本研究的重点是分析2006年全国人口与计划生育调查样本是否与总体育龄妇女结构相吻合,以便判断该调查所揭示的生育率回升能否推断总体情况。这里将用2005年1%人口抽样调查的育龄妇女结构来作为总体育龄妇女结构的代表,因为其覆盖的地区和样本人数远远大于2006年调查,并且仍采用常住人口作为调查对象。
在以上讨论中,已经说明流动迁移、初婚、初育之间在时间上有紧密关联。既然《2006年全国人口与计划生育调查数据集》(简称数据集)并未提供到达本地时间的详细划分,那我们可以从一孩生育者的初婚间隔角度对2006年调查情况与2005年1%人口抽样调查的情况进行比较,以检查其初婚间隔是否与更大范围的全国样本相似。
2006年调查数据集提供了按初育年份及相应初婚年份的已婚育龄妇女分布,根据这些数据可以计算出按初婚初育间隔年数的分布情况(见表1)。其中各年统计都是按该次调查时点(2006年9月1日0时)的现有有生育育龄妇女统计的,因此该表中越晚的年份才越接近于现有人口口径。换句话说,较早年份并不是当时的现有人口,现有样本中有人当时可能还未到达本地,而当时的现有人口中还会有人因为后来走了并未被调查到。
表1 2006年人口调查的已婚妇女各年生育的初婚初育间隔分布(%)
注:在2006年人口和计划生育调查中2005年初育人数是全年统计; 2005年1%人口抽样调查统计中按调查时点一年内初育者的初婚初育间隔,已按初婚年和初婚月划分做了统计口径上的对应。初婚年份与初育年份数据引自《2006年全国人口和计划生育调查数据集》表1-40-1及根据2005年1%人口抽样调查根据样本原始数据统计。
从表1可以看出,2006年调查的各年一孩生育中初婚初育间隔为2年以内或3年以内的合计比例很大,并且比例都是随时间提高的,最高的就是最接近于调查时点的2005年了。比如,间隔在3年以内者所占的比例从2002年81.6%提高到2005年的86.3%。若看初婚间隔在2年以内的比例,变化更为明显,从2002年的60.8%提高到2005年的69.0%。并且还能看到2005年这两种合计比例比2004年增加得更明显。此外,表1提供的各年初育人数统计也反映出2003年以后一孩生育人数迅速攀升的情况。
表1中还提供了2005年1%人口抽样调查样本原始数据在调查时点前一年中(2004年11月1日至2005年10月31日)所有初育者按初婚间隔分布的相应比例。从中可以看出,2005年1%人口抽样调查的一孩生育中的两种比例都大大低于2006年调查的情况。这个结果证明,2006年调查抽样确实有偏,偏重于近期初婚、生育的育龄妇女。
表1所揭示的2006年调查与2005年1%人口抽样调查之间在育龄妇女初婚初育间隔分布上这几个百分点的差别,完全可能导致生育率结果上的很大差异。下面用2005年1%人口抽样调查样本数据做一个实验分析来加以证明。
将2005年1%人口抽样调查数据的育龄妇女按调查时初婚间隔是否小于2年(即按2003年11月1日为界)划分为两类,然后分别计算生育率。这两类可都是已婚妇女(未婚者无法计算初婚间隔),所以计算的生育率都是已婚妇女总和生育率(TMFR),区别只在于她们是否刚结婚不久。因为近年刚结婚的妇女有极高的生育率,所以表2中提供的这类已婚妇女总和生育率达到7.3,而相应的已婚妇女一孩总和生育率高达7.1。这种结果看似极为惊人,其实不足为怪。如上所述,由于这一类人具有很高的生育倾向,如果只看她们的时期生育水平则必然出现极为严重的一孩生育堆积现象。表2中还提供了初婚2年以上者的总和生育率为2.7,并且相应已婚一孩生育率也很高(1.8)。它们存在同样问题,只是程度上相差很大。为了对多种口径生育率统计建立一个更加完整的相对比较概念,表2中同时还提供了全部已婚妇女的总和生育率结果作为参考。然而,当我们用标准总和生育率统计口径(即包括该数据中所有育龄妇女,当然也包括未婚者)来统计时,2005年1%人口抽样调查则表现出很低的总和生育率值(1.37),并且一孩生育堆积现象也全然消失了。
表2 2005年1%人口抽样调查样本按初婚间隔是否小于2年统计总和生育率的实验
| 孩次 | |
类
别
| 1 | 2 | 3+ | 合计 |
初婚<2年
| 7.074 | 0.176 | 0.025 | 7.275 |
初婚>2年
| 1.828 | 0.769 | 0.082 | 2.679 |
全部已婚妇女
| 2.743 | 0.492 | 0.067 | 3.302 |
全部育龄妇女
| 0.931 | 0.376 | 0.059 | 1.365 |
注:(1)作者根据2005年全国1%人口抽样调查样本原始数据统计。(2)据《2005年全国1%人口抽样调查资料》公布的年龄别生育率所计算的总和生育率为1.338,其中一孩、二孩、三孩及以上总和生育率分别为0.891、0.384和0.063。
图3 提供了2005年1%人口抽样调查样本以不同口径统计的年龄别一孩生育率曲线的比较,从中可以看出它们之间的巨大差别。首先,3种已婚生育率都比全部育龄妇女的常规口径生育率要高,其中初婚间隔较大者和所有已婚妇女的生育率高主要表现在25岁及以下各年龄的生育率上,其原因在于她们的生育率分母中并未包括大量的未婚者。其次,3种已婚生育率之间也差别极大,其中那些刚结婚不久的妇女表现出一孩生育率极高,即便是过了生育旺盛期后依然极高,原因在于她们也是刚刚结婚。
这一实验统计结果表明,在当前形势下研究总体生育情况时,一定要注意不同生育率的口径,除了要区分常规生育率和已婚生育率外,还要特别注意收集统计数据的方法与口径,否则会出现如同用妇产医院生育数据来推断全国总体生育形势一样的谬误。
在此有必要明确指出,计划生育部门建立的育龄妇女信息系统(WIS)数据库中主要收集已婚育龄妇女信息,一般并不包括未婚育龄妇女,仅有个别未婚先育的特殊案例,因此这个系统数据输出的“总和生育率”其实是“已婚妇女总和生育率”。本文这里的分析表明,它与常规口径的总和生育率之间没有可比性。
图3 2005年1%人口抽样调查样本不同口径的年龄别一孩生育率
至此,只考虑了2006年全国人口和计划生育调查样本中一孩生育者的初婚间隔分布偏差,或者说是该样本在样本迁移流动时间上的选择性问题,尚未考虑对未生育者的调查偏差问题。
2006年数据集不仅提供了作为调查对象的育龄妇女年龄和婚姻状况分布(数据集中表1-23-1),而且提供了调查涉及户中全部女性家庭成员的相应分布(数据集中表2-9-2)。表2-9-2作为表1-23-1的背景信息使用,通过对比可以知道两个口径之间的差别。
图4提供了这两种口径的育龄妇女的分布对比,结果发现作为本户家庭成员的育龄妇女有很多都因不合现有人口口径而没有实施调查。她们主要是30岁以下的妇女,而且其中很大比例是未婚者。这种年龄和婚姻状况特点与“打工妹”极为对应。当然,我们不能简单地将2006年调查的这两者口径的差别归结于“现有人口”和“常住人口”的差别,因为调查所涉及到的全部女性家庭成员在理论上和实际调查中都不可避免地存在重报,即一些已经外出的育龄妇女既出现在老家的家庭成员中,又可能会在现居住地被直接调查到,因而被重复统计到涉及的所有家庭成员口径中去。
图4还提供了2005年1%人口抽样调查公布的育龄妇女年龄和婚姻状况分布,在此作为代表全国总体情况的参照,并且它是“常住人口”统计。虽然2006年调查和2005年1%人口抽样调查各自统计的时点不同,但是育龄妇女分布在不到1年的时间内不会有重大变化。所以,这个比较仍然可以表明,2006年调查所真正收集的数据样本“丢失”了很多年轻且未婚的妇女,而她们正是那些已经外出而又不太可能生育的人(注5)。如果她们没有“丢失”,将会降低2006年调查显示的近年生育率水平。从这么严重的“丢失”程度来看,其方法上的原因不可能只是调查对象口径改变的问题,其抽样框方面的缺陷可能影响更大。
图4 不同来源与口径的育龄妇女年龄和婚姻状况分布的比较
图4还可以表明,2006年调查的全部女性家庭成员口径的确存在着“重报”的现象,因为它比2005年1%人口抽样调查育龄妇女结构在年轻段及未婚者上又明显多出不少。
下面的分析主要为了进一步确定2006年调查“丢失”的年轻未婚妇女到底是不是那些外出“打工妹”。为此,也可以从户籍地情况入手来研究2006年调查样本的“丢失”表现在哪里,并且2006年调查数据集也提供了这方面的数据(数据集的表1~4组)。根据这些数据,可以计算其中居住本人户籍地者的年龄别分布比例,并与2005年1%人口抽样调查样本中那些户口所在地就在本乡(镇、街道)者的年龄分布来进行对比,因为它们其实都是在调查中户籍地同时就是居住地的人。
表3揭示出,在2006年调查样本育龄妇女中,不论其居住地是否为户籍地(注6),30岁以下各年轻组的比例都低于2005年1%人口抽样调查的相应比例,并且这些年龄组恰好与图4 反映的“丢失”所在的年龄组吻合,而这里的统计又表明“丢失”的不仅有处于流动状态的年轻妇女(即不在户籍地的人),而且也有并未流动的年轻妇女。并且,流动育龄妇女相对“丢失”得更多,比如20~24岁组在户籍地居住一类中,2006年调查的比例与2005年人口抽样调查相应比例之比值为0.82(7.1:8.7),而两次调查在同年龄不在户籍地类的比例之比值为0.72(即2.2:3.1)。在15~19岁组中这两类的相应比值分别为0.50和0.41。流动人口类的比值明显小于在户籍地居住类即可表明流动人口“丢”得更多。
表3还提供了是否居住于户口所在地者在所有育龄妇女中的比例,结果表明,2006年该比例高于2005年1%人口抽样调查结果,而流动人口比例则低于2005年1%人口抽样调查。结合以上按年龄的比较,就能知道该调查偏多的是居住在户籍地的30岁以上妇女。
现在我们就比较清楚了,这种分布上的偏差并不单纯是出于采用“现有人口”作为调查对象口径的问题,影响更大的应该是在调查所用的抽样框中就已经将在外流动的“打工妹”遗漏了,否则她们作为现有人口反而应当更多地出现在2006年调查数据中。并且该调查连居住在户籍地的年轻妇女也大量遗漏了。而这种特征又恰恰与计划生育WIS系统只收集已婚妇女信息、不包括未婚妇女很近似。其结果是这种样本分布偏差将导致统计的总和生育率将在很大程度上带有已婚妇女总和生育率的特征,自然会有较高的数值。
表3 年龄别在户籍地与不在户籍地的育龄妇女占全部育龄妇女的比例(%)
注:表中2006年数据为调查数据集的表1-4-1;2005年数据为根据1%人口抽样调查样本数据统计。
总之,这些被遗漏的未婚年轻女性的生育可能性很低,“丢失”了她们将缩小生育率的分母,并提高生育率水平。加上前面已经发现,该调查又偏重了新近结婚的妇女,她们又更有可能近期生育。这两种调查偏差必然导致其生育率结果有偏:一方面是调查偏重于在家“坐月子”(只是个比喻,需要将时间段加长来理解)的妇女使生育率分子相对偏大因而生育率偏高,另一方面“丢失”较多的未婚者和外出“打工妹”则又会使生育率的分母明显缩小因而导致生育率进一步偏高。这后一种效应中的外出“打工妹”部分的影响恰好与从流动人口流入地看到的降低本地生育率的“外来人口分母效应”(梁秋生,2004;陈卫,2005;郭志刚,2005)相反,它是从流动人口流出地所看到的提高本地生育率的“外出人口分母效应”,而这种提高生育率的效应在以前的生育率研究中尚未被注意到。“外来”和“外出”两种分母效应的共同点则是现在的流动人口反而生育倾向很低。
下面我们来看看2006年调查数据的分布偏差是否能与其反映的近年生育率回升及其一孩生育堆积之间契合起来。图5 提供的2006年调查的各年年龄别一孩生育率(数据集中表1-38-1)曲线表明,2004年和2005年的生育率曲线正是在20~24岁和25~29岁远高于以前各年的一孩生育率(注7)。至于15~19岁组的差别不明显,主要是因为其生育率绝对水平太低,以至于上述两种效应不能得以充分显现。所以,上述“在家生育效应”和“外出人口的分母效应”这两种流迁因素的结合、再加上刚刚发现的非流动未婚九囊怕娜菲鸬搅遂谝缓⑸实淖饔茫佣贾铝?006年调查结果中有近年一孩总和生育率上的严重一孩生育堆积,以及这两年总和生育率的显著“回升”!
图5 2006年人口调查的各年份年龄别一孩生育率
实际上我们还可以根据这次调查的公布数据对其2005年总和生育率进行调整,看看如果各年龄组育龄妇女中的已婚未婚构成如果调整为2005年1%人口抽样调查的相应构成会有什么影响。即我们可以合理地假定这次调查中2005年的生育都是各年龄组已婚妇女的生育,而不考虑未婚妇女的生育情况,于是年龄别生育率的分子就可以保持不变(注8)。由于我们已经看到年轻组中遗漏了大量未婚妇女,但可以根据这次调查各年龄组的已婚人数除以2005年1%人口抽样调查育龄妇女相应年龄组的已婚未婚比,推算出如果将遗漏的未婚妇女“回补”到各年龄组时能对总和生育率结果有多大影响。同理,也可以推算出这种“回补”能对一孩总和生育率结果有多大影响。表4提供了调整的有关数据和结果。
表4显示,2006年调查数据的2005年育龄妇女已婚未婚比值约为2005年1%人口抽样调查相应比值的2倍,这具体地反映了该调查样本各年龄组中已婚未婚结构的重大偏差,而这种偏差导致2006年调查统计的总和生育率其实已经偏向于已婚妇女总和生育率。然后,我们按照2005年1%人口抽样调查各年龄组的已婚未婚比水平在2006年数据各年龄组“回补”未婚妇女,以便合理扩大分母,转换为标准口径的总和生育率。实际上,这是以2005年1%人口抽样调查已婚未婚结构作为参照的标准化生育率,而标准化将使两个来源的生育率水平更加具有可比性。结果这种调整导致2006年调查的2005年总和生育率从原来的1.736直落为1.497,而同年的一孩总和生育率也从原来的1.227降到了1.024。于是,不仅该年总和生育率的飙升不见了,而且一孩总和生育率的严重生育堆积也几乎消失了。从标准化测算前后的生育率变化幅度来看,此次调查影响生育率最大的偏差应该是大量遗漏了未婚妇女,其影响导致总和生育率统计偏高了16%,导致一孩总和生育率偏高了20%。
当然,该调查抽样在其他方面有偏也会导致收集略多的近年生育者,偏差将主要反映在生育率的分子上,但上述分析间接反映出这些因素对2006年生育率偏差影响相对较小。因为以上调整过程并未涉及到这方面,所以我们知道其总和生育率调整值1.497其实还存在这些因素导致的偏高,并且其一孩总和生育率调整值1.024也仍然显示有一孩生育堆积。
表4 2006年调查的2005年按已婚未婚结构标准化的总和生育率
注:2006年调查的已婚未婚比和已婚人数由该调查数据集的表1-23-1推算。2005年1%人口抽样调查根据样本数据统计。计算公式: 未婚调整数=已婚人数/1%抽样调查已婚未婚比 ;合计调整数=已婚人数+未婚调整数。
在本研究回答了2006年调查结果为什么显示近年生育率特别高的原因之后,还有一个问题需要解释,即为什么2006年调查的较早年份生育率却与其他全国调查取得的水平差不多?其实以上分析和讨论已经涉及了这个问题,原因也大致相同,只不过要反过来看。我们知道,样本对近期迁移流动的选择性只能突出近期生育结果,而不大影响样本案例以前的生育情况。这就好比在一个妇产医院用现有人口调查只能表现出当年的总和生育率特别高及严重一孩生育堆积,但是并不会使这些住院产妇以前的生育水平提高。迁移流动与生育之间时间关联和住院与生育之间的时间关联类似,在较早年份这些调查对象可能尚未发生迁移流动。何况现在的实际情况是,相当多的育龄妇女实际上只生一个孩子,所以在较早年份从未生育过。另外一个原因是,2006年调查所遗漏的未婚妇女的影响只体现在分母上,而分母是在与分子相互作用的条件下发生影响。也就是说,当分子很小及生育率很低时,分母影响就显得很小。比如,表4中15~19岁的已婚未婚结构标准化生育率(0.007)与原来的生育率(0.016)都很低,看起来绝对差别很小,好像遗漏未婚妇女的影响并不大,然而原来这个组的生育率其实已经偏高了132%。图5 也反映了这种情况,在15~19岁和30岁以上各年龄组中生育率上所有年份的水平看起来差异显得不大,就是因为即使在2005年这些组的生育数也是极少的,因而遗漏未婚妇女的分母影响便不太明显。所以,生育旺盛期妇女的样本有偏时影响才是最大的。
此外,从2006年调查的技术文件中我们了解到,该调查的质量监控程序中其实有“选取一定样本,用WIS系统数据与本次调查结果相互对比”的要求。但是如上所述,由于WIS系统本身并不包括未婚妇女,其结果是这种质量监控也很难核查出遗漏未婚妇女的问题。实际上,在这种情况下更好的数据检查是将样本结构与最近的人口普查或1%人口抽样调查进行比较,遗憾的是在调查过程中和汇总主要数据时可能都没做这个工作,便轻率宣布了“近年生育率回升”。
六、结语
本研究主要分析了2006年人口和计划生育调查数据的样本分布,发现其明显有偏,偏重反映了初婚间隔较短并在近年有生育因而在家哺育婴儿的育龄妇女,而且非常严重地遗漏了年轻、未婚的育龄妇女,尤其是处于流动之中的年轻未婚妇女。正是这两种偏差的存在导致该调查结果出现近年的总和生育率严重偏高,并且产生了严重的一孩生育堆积。因此,2006年调查显示的“近年生育率回升”完全是误导,既不表明这次调查质量很高,也不表明全国真实生育率已经“水落石出”。
本研究还对一些有关结婚、生育、流迁方面的规律进行了探索,主要发现概括如下:育龄妇女的迁移流动与结婚生育之间有紧密联系,最近有迁移流动的育龄妇女有极高的生育倾向,因此当样本偏重于她们时便会产生生育堆积现象,并导致生育率较高,但对更早年份的生育率统计则影响不大。已婚妇女总和生育率在数值上大大高于标准定义的总和生育率,并且近期初婚的已婚妇女生育率又会远远高于初婚间隔较长的已婚妇女总和生育率。因此,研究生育水平时必须注意所用数据的特点并准确把握不同生育率的含义,否则将会产生概念上的混乱和结论上的误导。
调查统计是一项科学研究工作,其中出现一些问题、发生一些错误是不可避免的。最重要的是及时总结经验教训,把今后的调查统计搞好,不能将错就错地任由有偏的统计结果继续误导下去。本研究只是尽可能用2006年调查公开发表的数据资料结合其他人口数据进行了初步分析,而更深入的分析必须依赖于直接根据这次调查的原始数据来进行。
注释:
注1:国家人口和计划生育委员会发展规划司:《2006年全国人口和计划生育抽样调查主要数据公报(2007年第2号)》,中国人口网,2007年4月29日。
注2:说它算“半个”是因为这个调查在2004年以前的总和生育率水平同样很低。另外,一些地区近年曾计算出较高的总和生育率,不外有3种情况:一是反映了局部地区的特殊情况。二是因为所用的是计划生育妇女信息系统数据,而该系统数据并不包含未婚妇女,因而实际上得到的不是标准口径的总和生育率,而是已婚妇女总和生育率,因而自然会高于常规口径总和生育率。三是主要发生于一些存在大量迁入年轻妇女的地区,因而生育率中显示出较强的生育堆积效应。本研究后面的分析将揭示后两种情况的原因。
注3:2005年并没有做人口变动调查,而是进行了全国1%人口抽样调查,因此该年总和生育率就是2005年1%人口抽样调查的直接统计。
注4:实际中常见到的是“一孩出生堆积”的说法。其实,出生堆积和生育堆积只是从不同角度看同一问题,出生堆积是从出生数角度来看,而生育堆积则是从育龄妇女角度来看。前者是在描述生育的结果,后者则旨在描述生育本身。由于本文采用一孩总和生育率作为堆积现象的观测指标,并不讨论一孩出生数,所以本文采用“一孩生育堆积”的表达方式。关于出生统计与生育统计的区别及其对人口计划生育的意义,查瑞传(1991)曾经有过经典的论述和分析。
注5:本次调查在其抽样办法中特别强调:“家庭户、非企事业单位集体户内现住成员中的所有合格育龄妇女均需进行调查,应特别注意不要将未婚育龄妇女遗漏”(调查技术文件第15页)。但结果是未婚育龄妇女的遗漏极为严重。
注6:2006年调查与居住于“本人户籍地”相对的其他类别则还有居住于“外乡本县”、“外县本省”、“外省”(以本人户籍地为参照)。而2005年1%小普查问的是“户口登记地情况”,类别划分为“本乡(镇、街道)”、“本县(市、区)其他乡(镇、街道)”、“其他县(市、区)”、以及“户口待定”。
注7:实际上,2005年1%人口抽样调查各年龄组生育率水平与2006年全国人口和计划生育调查的前几年情况极为接近。
注8:在调整过程中,用数据集提供的育龄妇女年龄别人数和生育率反推的生育数和一孩生育数与数据集的表1-35-1和表1-36-1提供的已婚生育人数几乎没什么差别,这说明数据中未婚生育情况的确很少。
参考文献:
1.陈卫(2005):《低生育率中的外来人口分母效应》,《人口研究》,第4期。
2.丁峻峰(2003):《浅析中国1991~2000年生育模式变化对生育水平的影响》,《人口研究》,第2期。
3.国务院全国1%人口抽样调查领导小组办公室、国家统计局人口和社会科技统计司(2007): 《2005年全国1%人口抽样调查资料》,中国统计出版社。
4.国家统计局人口和就业统计司(1996~2008):《中国人口和就业统计年鉴》,中国统计出版社,相应年份。
5.郭志刚(2004):《中国1990年代生育水平的研究与讨论》,《人口研究》,第2期。
6.郭志刚(2005):《关于外来人口分母效应的再讨论》,《人口研究》,第4期。
7.梁秋生(2004):《外来流入人口的分母效应与大城市育龄妇女的总和生育率──以京、津、沪为例》,《人口研究》,第5期。
8.查瑞传(1991),《我国第三次出生高峰不是一次生育高峰》,《人口研究》,第3期。
9.张维庆等主编(2008):《2006年全国人口和计划生育调查数据集》,中国人口出版社。
How come the fertility-rates in recent years notably "pick up"
---- Evaluation of the 2006 national population and family planning survey
Guo Zhigang
Summary: This paper analyses the reasons of the notably fertility “pick up” in recent years shown by the 2006 national population and family planning survey based upon the published data collection of this survey. Through discussing the methods used by this survey, analyzing the sample composition, and comparing them to those from the 2005 national 1% population sampling survey, it turns out that the 2006 survey sample is badly biased, which over-draw the women newly married and just delivered, but under-draw the women at young age and unmarried. Therefore, the fertility “pick up” in the recent year shown by this survey is resulted by its sampling bias, and such statistics cannot represent the situation of population. This study also shows the differences in levels and age-patterns between the total fertility rate and the total married fertility rate, hence there is little comparability between two indexes. Therefore, the biased TFRs from this survey are quite similar to TMFRs, as the results, the calculated TFR and TFR(1) of the year 2005 are in fact over-estimated by 15 percent and 19 percent respectively.
Author: GUO Zhigang, department of sociology, Peking University
Key words: the fertility-rate, the married fertility-rate, sample bias, representativeness
作者授权社会学人类学中国网(
www.sachina.edu.cn)首发,转载敬请注明出处!
文章链接:
http://www.sachina.edu.cn/Htmldata/article/2009/04/1851.html
社会学人类学中国网