欢迎访问晶羽文学网

微信
手机版

关于统计学的美文

2021-12-26 04:34 作者:澎湃新闻 围观:

刘灿辉(剑桥大学社会学系博士生)

2021年5月11日,第七次人口普查主要数据公布。由于七普数据全面启用电子化方式采集数据、联网自主填报、充分利用部门行政记录校验数据,加之疫情降低了潜在人口流动率,因此,不少统计学家和人口学家认为七普是一次高质量的普查,是中国普查历史上漏报率最低的普查。

相较于人口普查所反映的中国人口变化趋势,普查背后的关键技术——统计,却鲜有被关注。从《地区生产总值统一核算改革方案》出台到第四次全国经济普查采用全新核算方式,从第七次人口普查启用全新数据采集系统到数字经济飞速发展,统计与数据在社会经济生活与政策制定中扮演了越来越关键的作用。作为客观实体的统计数字是如何与国家经济社会发展紧密关联?统计,显然不只是一个数学现象和自然科学问题,更是一个社会科学研究问题,是反映经济社会治理技术发展历程的关键线索,因此,我们有必要回到统计的历史时空,追溯一场关于数字的思想变迁。

统计调查的历程与悖论:社会管理技术抑或独立科学体系?

山东省枣庄市齐村镇齐东村人口普查员在居民家中进行人口普查登记工作。

一、统计:数字的社会悖论

统计,作为数字或数字的组合,对于社会大众来说具有双重性悖论——统计数据既是直观明了的,又是复杂隐晦的。从四万万人口、奥运会金牌数量,到每日新增的新冠感染病例,统计将冗杂繁复的信息简化为一个个知识壁垒极地的数字,让我们有机会了解社会经济的动态,也降低了决策中枢的信息搜寻与认知成本,提高决策效率;另一方面,统计数字本身在简化信息的同时又陷入了社会学家韦伯所说的“理性牢笼”,当数字等同于信息、过程、机制,逐渐异化的时候,统计便成为了“黑箱”,建构起新的知识壁垒,正如科学技术哲学专家布鲁诺·拉图尔所言,当一种观点逐渐“黑箱化”,它变成了专业性强化的科学、理论,建立起与普罗大众隔绝的知识高墙。

统计将我们从信息的复杂系统中解放,却又在这场解放中异化,成为高度政治化的产物。控制论始祖维纳在论述人机关系时曾提出,现代社会的每个人都处于孤独的状态,每个人包括科学家在内,都在从混乱中制造秩序,所以,他们在玩一场游戏,游戏的对家,也是最大的敌人,就是解体(disorganization)。统计如同其他技术物,在混乱的信息结构中制造了一种简化的秩序,却又在一场秩序井然中走向另一种失序。

统计数据的黑箱化背后是技术、社会与组织博弈与互动的结果。马克思早有预言,一切技术都是人类生产关系的总和,技术如此,统计数字也如此。统计从一种数学模型,走向一种信息化约主义,是一个复杂的科学哲学问题,但是统计如何从客观实在成为治理工具却是回答统计质疑的关键问题。

二、统计:近现代国家管理的基础

谈及统计,我们会有不同的概念想象,一面是高度计量化、以概率论为基础的计量统计,另一面是高度指标化、面向经济社会生活管理的社会经济。这样的想象分歧并非没有根据,实际上,这一对分歧恰恰是理解统计学发展与现代国家治理的核心脉络。

统计作为国家经济社会管理技术的基础经历了两次重要的转向。

第一次转向伴随在统计从社会管理技术向数理科学推断发展过程之中,这也是近现代统计学与古典统计学的分水岭。统计史学家把17世纪出现的初始统计学称为古典统计学,把概率论引入统计学之后的统计学,称之为近现代统计学。古典统计学的兴起深刻嵌入在西欧国家角色的历史性转变之中。国家开始作为治理主体,高度介入个体和社会的生命历程之中,国家治理不再依赖于分封自主管理的整合,治理对象也不再仅仅是人民和领土本身,而是如福柯所说治理的是“人与人之间的关系,人与物之间的关系(财富与资源),领土的特性(气候、灌溉系统、土壤肥力),人的行为(习俗、习惯、思考和行动的方式),人和事件之间的关联(意外、事故、饥荒、传染病、死亡)”。因此,如何有效了解和治理复杂多样的人与物的关系,成为早期国家治理的核心命题,统计学即是在这样的背景下成为一种国家经济社会的治理术,因而古典统计学本质上是关于国家的科学。古典统计学的两个来源——以康灵(H. Conring)为代表德国国势学派和以威廉·佩蒂为代表(W. Petty)的英国政治算术学派均以研究国家治理关键事项,诸如人口、领土、财政、军事等为出发,即以社会经济现象为研究对象,并且通过数量来表示。因此,古典统计学是一种以国家经济社会治理为核心的社会统计学。威廉·佩蒂因此也被马克思称为“政治经济学之父、统计学的发明者”,恩格斯也指出“佩蒂的政治算术,即是一般所谓的统计。”

随着数学家凯特莱将概率论引入统计学,近现代统计学得以发展,进入数理统计时代。凯特莱开创了统计理论和应用的新领域,但当时并没有给以确切的名称,直到1867年德国数学家威特斯坦发表了题为《数理统计学及其在经济学和保险学中的应用》的论文,由此才定名为数理统计学。由此,统计学与国家治理术完成了第一次脱钩,成为不仅适用于社会现象而且广泛适用于自然现象的独立科学体系。

可见,统计学起始于国家管理,起始于社会经济的数量考察,后来发展为两门统计学——数理统计学与社会经济统计学,并且产生了众多的分支,形成各自独立的学科体系。

近现代统计学的分化也带来旷日持久的悖论——概率的数理性和信息的总体性。显然数理统计科学关注的是数量分布上的普遍规律与误差相对性,追求的是数量上的精确,而古典统计学,或社会统计学,更关注数字背后的信息总体性,即通过什么样的数字能够即时反映社会经济生活的全面性、问题性。对于统计的不同价值期待,也深刻影响了统计作为何种意义上的社会事实产生广泛的社会信任。

实际上,这一悖论伴随在了统计作为国家治理技术的不同意识形态取径之中,统计学也迎来了第二次分歧转型。

以美国为代表的阵营,自从数理统计特别是在自然技术各个领域广泛应用之后,数理统计学逐步取代了社会统计学的地位。尤其在控制论、系统论等复杂系统的发展之后,统计越来越成为高度技术化的自然科学体系,以工业统计、商业统计、管理统计等命名的统计学,实际都是数理统计方法在各该领域中的应用,即统计学是自然科学的社会应用,而非社会科学本身。

以苏联为代表的阵营则采取了不同的发展路径。苏联承袭了德国在早期古典统计学发展中的社会经济指标体系,试图通过构建一系列诸如恩格尔系数的指标体系,作为计划制定、计划执行和计划检查手段和工具,反映国家生活的方方面面,统计成为一种实现意识形态追求的社会科学,更多遵从工具理性,因此,苏联对数理统计学长期持批评态度,批判“通用论”和“方法论”,认为数理统计学本身属于数学,而不属于统计学,同时强调统计学的阶级性特征,即实现社会主义,最终实现共产主义是确定的、清晰的,而非概率的、不确定的。因此,统计应该是一门全面反映社会经济生活的社会科学。

这一观点也深刻影响了早期中国的统计发展。哈佛大学历史系助理教授Arunabh Ghosh(郭旭光)在他2020年出版的新书《Making It Count: Statistics and Statecraft in the Early People's Republic of China》(《数据何以可能:共和国早期的统计与国家治理》)详细回顾了中国统计制度发展的历程。

在1949年与旧时代彻底决裂后,中共早期领导人李富春,断然否定了民族主义时代统计数据的用途,为其贴上了英美资产阶级自负的标签,认为它们不适合"管理和监督国家",因此新中国需要一种新的统计方法。中国统计学家与苏联同胞一道,将统计学重新定义为一门社会科学,它的真正研究目标是社会世界,而非物理和自然世界。

在拒绝概率以及它所属的更大的数理统计领域之后,中国早期统计学家摒弃了近现代统计学最重要的事实生成技术——大规模随机抽样,相反,统计学家们认为确定社会事实的唯一正确方法是对其进行详尽的统计。因此,国家统计的关键在于完整统计,通过涵盖所有经济部门的全面和定期报告的庞大系统来实现,只有在不可能进行彻底统计的情况下,统计学家才会使用非随机方法抽样调查。

国家统计局总部于1952年在北京成立,分为13个部门,涉及工业、农业基本建设、贸易、物资分配、交通运输、劳动工资、文化教育和出版事业。这些分支机构收到的数据都是从村到县再到省局逐级上报,最后在北京,资料被进一步整理和汇编,然后送到国家计划委员会。这些统计数据基础上的数据随后又通过同样的途径送回省、市、县规划办公室,提交给相应的统计局。在高峰时期,国家统计数据收集系统雇用了20万名专职干部,分布在2200个县和75万个村庄。

在这些情况下,统计作为社会经济治理工具的悖论出现——准确性和及时性相互冲突。决策机构为了了解情况、研究问题、制定政策,往往需要比较及时的参考资料。这类数据不需要具有高度的准确性或全面性,但必须及时提供。因此,较高级别的统计系统往往规定更严格的最后期限,较低级别的系统则提供了越来越多的估计数字。随着这些数字从县到省再到北京,层层放大,最终导致国家数据的误差越来越大。

数据分析的集中性与数据收集的层级性带来了一个巨大的问题——数据不一致。各省局或北京总部经常遇到某一产品的不同数字,为此国家统计局在第一个五年计划期间发布了工业产品目录,希望实现一些标准化,但收效甚微,其中计量单位是造成混乱的另一个原因,各区域在重量、体积单位和分组使得总体估计常常不可通约。

生产实际和统计数据的不可调和反过来助长了长期的拖延。这些问题在农业部门最为突出。在普遍的以工业为中心的导向下,农业部门的规模以及地形、作物和季节的巨大变化常常被忽视,加剧了多报、夸大、延迟和产生不可比较数据的趋势。

在相当长的时期内,在中国只承认一门统计学——社会经济统计学,并且因为部门所有制导致了分部门建立统计学的热潮,部门统计学愈来愈细,愈设愈多,内容讲的愈益具体,有的几乎变成制度汇编和指标说明,制度一变,内容也变,有失科学研究规律性的要求。

1971年后,中国的统计工作逐步得以恢复,1978年改革开放政策出台后,彻底重新评估统计数据和缓慢重新采用概率方法成为统计工作改革的核心。我国统计学界也出现了一门两门统计学的争论,两种不同面向的统计调查所侧重的数据精准性与数理性要求并非完全相同,这也是过往数据争议背后的逻辑之一。正如20世纪中叶中国统计学家所发现的,数据及时性和准确性、数量性与总体性这两对基本悖论始终是国家统计工作的阿喀琉斯之踵,如何实现这两对矛盾的精确性仍然是当今的一项巨大挑战,也是有效回应人民对于美好生活与精准事实向往的关键难点。

统计学的真理就在于事实本身,它充分肯定国家基于自身的理性,而不在这之外或之上寻求其他的理性秩序,如同制图术一样,当今社会,经济社会管理及日常生活越来越依靠数字和图像来理解世界与做出决断,以至于数字与图像很容易被当作是天然存在和价值无涉的,统计作为一种社会事实,实质是一种对信息的社会认知过程。

改革开放以来,“老三论”热潮、技术主义、两种统计争论,都反映了对社会经济生活管理现代化的向往,统计,如同列文森奖得主、人类学家阎云翔笔下的“麦当劳汉堡包”一样,构成了当代中国社会现代化转向的重要维度。一种组织管理的技术视角及其背后的文化阐释应成为理解当代中国社会变迁的重要主线。

统计调查的历程与悖论:社会管理技术抑或独立科学体系?

三、统计:信息,信息,信息

统计作为一种信息表征,如何解决指标一统性与统计多样性、数理准确性与信息全面性之间的张力,成为解决委托-代理问题的关键。德国社会学家韦伯提出科层制组织(bureaucracy)这一新型组织形式时,强调了科层组织的准确、及时、高效的优势,适应了市场经济和工业大规模生产的需要。在这一理论模式中,等级结构有利于自上而下的指令传递和执行。但在这一制度中,自下而上的信息搜集、加工、解释存在突出的组织问题,尤其是目标责任制下的单一考核指标与组织晋升流动锦标赛之间、人民日益增长的科学素养与信息不对称的事实生产技术之间的张力,是理解当前统计数据悖论的重要线索。

新时期以来,随着大数据与区块链时代的到来,建立多指标考核,优化数据采集、上报、分析机制,倒逼经济社会指标“挤水分”成为推进统计制度深化改革的重要动力,统计纠偏还将在一段时间内继续影响统计改革的发展。但更重要的是,回顾统计的技术历程不仅是为了提升统计数据在国民经济生活的重要性、参考性,更重要的是,在后全球化时代和大数据世界里,认识到所有的数据都是有偏见的,但并非所有的偏见都是一样的,很可能是至关重要的问题。

如同阿伦特所指出的,行为模式的正态分布在希腊是不可能存在的,由于城邦中的每个自由人都追求卓越,而卓越的重要标准之一即是追求与众不同,这是统计学面临最重要的人性条件。

参考文献

Ghosh,Arunabh.MakingItCount:StatisticsandStatecraftintheEarlyPeople'sRepublicofChina.Vol.23.PrincetonUniversityPress,2020.

Ghosh,Arunabh.CountingChina.Aeon,23July2020.https://scholar.harvard.edu/arunabh.ghosh/public-writing-0

钱伯海. "论统计学的继承和发展." 统计研究 11.1(1994):16-23.

杜月. "制图术:国家治理研究的一个新视角." 社会学研究 032.005(2017):192-217.

周黎安."中国地方官员的晋升锦标赛模式研究."经济研究042.007(2007):36-50.

周雪光:“有组织的无序”:封闭系统中组织决策的大困境.https://chinadigitaltimes.net/chinese/632951.html

拉图尔.科学在行动.东方出版社,2005.

维纳.人有人的用处.商务印书馆出版社,1978.

责任编辑:朱凡

校对:张艳

相关文章