统计:从计数到大数据(下)
鲜祖德
5
大数据:新资源、新机会
大数据是人类自身产生的一种新的“自然”资源,与支撑传统经济发展的自然资源,如土地、石油、煤、水等不同,这种人造“自然”资源越用越多,越用越便宜,越用越有价值,以知识、创新、ICT、IT、DT为主要特征的新经济的发展更多是依靠这种新资源。可以说,21世纪的竞争是数据的竞争,谁拥有了大数据,谁就占领了制高点,谁就拥有洞见的能力,谁就能引领未来。
与传统统计学研究的数据比,大数据有几个特点:一是数据量大。按有关机构测算,全球数据量每两年翻一番。这还不是主要问题,因为摩尔定理表明,数据处理能力每18个月就可以翻一番。二是数据类型多。数据不仅仅是数字,包括了结构化数据、半结构化数据和非结构化数据,特别是互联网和通讯技术的迅速发展,电子商务和社交网络的广泛应用,网络日志、音频、视频、图片、地理空间位置、网上交易等成为新的数据形式。三是数据上云。大数据已经无法用传统的存储、计算方式来处理,数据上云意味着,可以通过网络,依托于云计算的分布式处理、分布式数据库、云存储和虚拟化等技术,对海量数据进行整合、挖掘,从技术上看,大数据与云计算就像一对孪生兄弟或者一枚硬币的正反面一样密不可分。
除了上述三个特点外,一般认为大数据还有两个特点:速度和价值。一般将数据量(Volume)、数据类型(Variety)、速度(Velocity)和价值(Value)称为“4V”,刻画了大数据的基本特征。
哈佛大学里·金教授说:“大数据是一场革命,庞大的数据资源使得各个领域开始了量化进程,无论学术界、商业还是政府,所有领域都将开始这种进程。”今天,我们进入了信息社会,面临着大数据时代的来临,云计算、物联网、移动终端及可穿戴设备高度发达与融合,不管你是谁、不管你愿意不愿意,都要与数据打交道,要么在生产数据,要么在接收数据,不管身在何处,你已经被“大数据”了。从日常生活到国家宏观调控,我们面临的都将是各种数据。如何在各种各样的数据中进行深入的分析和挖掘,发现这些数据当中隐藏的更深刻的规律和现象,就能更好地服务于政府决策和社会各方面的需求,大数据的真正价值就体现在这里。
国际上很多组织和国家,特别是发达国家,都已经把大数据的开发应用提高到战略的高度来研究。联合国《大数据促发展:挑战与机遇》(2012)认为:“大数据像纳米技术和量子计算一样带来了根本性的变革,将会塑造21世纪。”世界经济论坛发布的《大数据、大影响:国际发展的新动向》称:“大数据已经成为一种新的经济资产类别,就像货币或黄金一样。”维克托在《大数据时代—生活、工作与思维的大变革》中说:“大数据时代将带来思维变革、商业变革和管理变革,随着大数据在商业等领域崭露头角,一场为发掘和利用数据价值的竞赛正在全球上演,人类将面临根本性的时代变革。”
大数据时代,我国优势明显。第一,从政策层面,我国已经出台并实施了《促进大数据发展行动纲要》和《中国制造2025》。第二,我国是世界第一人口大国,第二大经济体,有1500多万个法人单位,1800多万个产业活动单位,还有大量其他经济主体不断涌现。人口和经济规模决定了我国是一个数据资源大国。第三,我国是一个网络大国,截至2016年6月,中国互联网普及率达到51.7%,网民规模达7.1亿,手机网民规模达6.56亿,一大批互联网企业、大数据企业正在改变着传统的生产生活方式。第四,大数据时代与我国经济发展新常态正处在一个历史的交汇口,提质增效、转型升级为加快大数据的应用提供了机遇,同时,以大数据开发为基础的一大批产业将形成新的经济增长点,推动新经济的发展,实现动能转换。
6
大数据催生统计创新
普查和抽样调查是传统的两大数据收集方法。普查不需要统计学方法进行推断估计,因为通过普查,已经取得了所有个体数据和总体的实际分布,这也是为什么人类开始懂得计数就开始进行普查。抽样调查是利用抽样理论解决如何科学设计样本,取得样本个体数据,并科学地推断总体分布及特征。无论是普查还是抽样调查,其核心问题之一是要取得准确的“个体数据”。但在大数据时代,一切皆可量化,一切皆可记录,如何利用更全面、更及时、更经济的网络电子化数据,以及通过对这些数据使用新的分析及挖掘技术,产生新的见解和认识,是我们面临的重大机遇。
大数据和统计从思维到方法等方面有明显的不同,主要表现在以下八个方面,这也是在大数据背景下统计创新要思考的主要问题。
一是“问题驱动”与“数据驱动”
收集数据是开展统计分析的前提,传统的普查或抽样调查是先确定普查或调查目的,然后再根据目的相应要求和经费确定普查或调查的方法和样本量的大小。也就是说,传统统计方法设计是针对研究问题而收集数据,提出假设,再进行统计检验和推断。这种用有限数据验证先验假定,通常是基于分布理论,以一定的概率为保证,其逻辑关系是“分布理论-概率保证-总体推断”。而大数据强调的是全体数据,总体特征一般不再需要根据分布理论进行推断。不仅如此,还可以根据全面数据和实际分布来判断其中出现某类情况的可能性有多大,其逻辑关系变成了“实际分布-总体特征-概率判断”,也即概率不再是事先预设,而是基于实际分布得出的判断。在大数据时代,由于有足够的数据,足够的变量,可以采用人工智能等来进行数据挖掘和知识发现,广泛开展各种探索性研究,其结论与发现是通过数据分析获得的,也就是数据驱动,用数据决策和用数据创新。
二是“我问你答”与“我取你有”
统计报表、调查问卷是目前全世界开展普查、调查收集数据的主要载体。这种方式是通过结构化的报表将被调查对象的行为转化为可用的数据,这种方式的根本特征“我问你答”,需要被调查者高度配合,包括对问题的正确理解和如实回答填报,否则,数据质量难以保证。但在“大数据”时代,数据来源于信息技术记录下的原始数据,这些数据的参与仅仅依赖于测量方法(如企业生产记录、大量行政记录、GPS定位测量、超市收银管理系统、ETC电子收费系统),充分利用电子记录大数据为政府统计所用,采用“我取你有”的方式,取得更及时、真实的原始数据,由专业统计人员根据统计制度计算统计指标数据,也减少了统计调查和报表整理的中间环节,数据质量将会大大提高。
三是“因果联系”与“相关分析”
传统统计主要通过建立模型探求变量之间的因果关系,并基于模型对因变量进行预测,即预先假定事物之间存在某种因果关系,然后在此假定的基础上构建模型并验证假定存在的因果关系。存在的问题往往是,变量间的因果关系具有时效性,存在“此一时,彼一时”的情况,是在特殊条件和前提假定下的关系,结论的时效性与适用性较为有限。而相关关系具有更加普遍和本质的内涵,有因果关系必有相关关系,有相关关系未必有因果关系。在大数据背景下,数据分析不再探求特定条件下确定性很强的因果关系,而是更加关注普遍意义的相关关系。从超大量数据中发现各种真实存在的相关关系,更加直观、更贴近个体、更容易被理解和接受,可以发现事物发展潜在的规律,具有一定的“智能性”,某种程度上超越了传统统计研究的因果关系,因此,相关分析是大数据时代的重要工作。
四是“样本抽选”与“总体描述”
以统计推断为主要特征的现代统计学研究主要内容是不断改进样本抽样方法和参数设计,从而对总体的特征进行描述。囿于数据收集以及客观条件的限制,总是希望通过尽可能少的样本来了解总体。在这种背景下,产生了各式各样的抽样调查技术和参数估计方法。在分层情况下,样本的数量往往不能有效地减少。大数据时代,样本就是被记录的所有数据,从这个意义上讲,样本就是总体。通过对所有与事物相关的数据进行分析,既有利于了解总体,又有利于了解局部细微。总的来讲,传统的统计抽样调查方法存在的不足可以在大数据时代得到改进。大数定律告诉我们,随着样本数量的增加,样本平均数越来越接近总体,而大数据已经描述了总体信息。
五是“数据烟囱”与“数据平台”
长期以来,我国政府统计是以部门为中心展开的,相互隔离形成了行业垂直的信息化体系,在地方上形成了条块分割的“信息孤岛”,形成一个个“数据烟囱”,数据标准不统一,数据指标不规范,数据平台重复建设。大数据特别是与之相关联云计算,为信息整合提供了新的契机,有助于建立政府信息共享数据平台,提高政府行为的透明度,有效提高政府的公信力,以大数据助推政府决策科学化。大数据的应用将改变政府统计部门的工作模式,整合现有的分散于各职能部门中的“行政记录”,完善多种信息来源的数据采集制度,实现工商、质监、劳动、人社等部门的数据注册、查询、共享和交换,在一个数据平台(包括标准、指标、数据库等),能够揭示传统技术方式难以展现的关联关系,为有效处理复杂社会问题提供新的手段,有助于建立现代化的政府统计调查体系,最大限度地发掘这些数据资源的价值,提高政府统计部门的生产力,建立“用数据说话、用数据决策、用数据管理、用数据创新”的管理体制机制,提升政府治理能力。
六是“以小见大”与“以大见小”
七是“记录历史”与“预测未来”
德国统计学家斯勒兹曾说过:“统计是动态的历史,历史是静态的统计。”这是在300多年前说的,也揭示了统计的基本功能,那就是记录历史。这当然是非常重要的,也是预测的基础。统计预测就是利用历史数据建模、外推进行预测,这里包含了一个假定的前提,就是未来的发展趋势是按照历史数据呈现的规律变化的,或者在对未来可能的选择,改变参数进行人为的调整。这种预测方法和思路,对于今天快速变化发展的社会经济状况,特别是很多不可预测的突发事件的影响,显然是不适应的。技术与创新成为时代的主题,新产业、新业态、新模式等新经济层出不穷,未来的经济发展不能完全用历史的模式来描述,这也要求有新的预测方法。大数据时代,各种传感器和网络设施遍布社会的各个角落,而这些数据是实时的、动态的,具有“零延迟”、即时性等特点,采用智能计算、实时计算等方法,极大地提高了数据的时效性和预测质量。特别是,随着电子商务、互联网金融、社交网络等的飞速发展,互联网已经成为人们生产生活不可或缺的重要场所。人们在互联网上购物、交流、搜索、浏览的各种行为所产生的数据量越来越大。这些数据记录人们搜索内容、搜索频率以及位置等信息,反映了人们社会经济活动、心理活动、情感取向、个体需求、兴趣关注等,未来的变化趋势,体现在今天人们的行为中。
八是“归纳推断”与“演绎推理”
统计研究的任务就是为了发现新的知识,归纳法则是发现新知识的基本方法。因此,归纳推断法成为最主要的统计研究方法,使得我们能够从足够多的个体信息中归纳出关于总体的特征。对于大数据,依然要从中去发现新的知识,依然要通过具体的个体信息去归纳出一般的总体特征,因此归纳法依然是大数据分析的主要方法。大数据是一个信息宝库,仅仅重视一般特征的归纳与概括是不够的,还需要分析研究子类信息乃至个体信息,以及某些特殊的、异常的信息——或许它(们)代表着一种新生事物或未来的发展方向,还需要通过已掌握的分布特征和相关知识与经验去推理分析其他更多、更具体的规律,去发现更深层次的关联关系,去对某些结论做出判断,这就需要运用演绎推理法。演绎法可以充分利用已有的知识去认识更具体、细小的特征,形成更多有用的结论。只要归纳法与演绎法结合得好,就既可以从大数据的偶然性中发现必然性,又可以利用全面数据的必然性去观察偶然性、认识偶然性、甚至利用偶然性,从而提高驾驭事物发展的能力。
7
新的起点
用数据说话,已经成为现代社会的基本理念。中国古代的管仲说过:“不明于计数而欲举大事,犹无舟楫而欲经于水险也。”著名经济学家马寅初曾说:“学者们不能离开统计而究学,政治家不能离开统计而施政,事业家不能离开统计而执业。”美国管理学家、统计学家戴明说:“除了上帝,任何人都必须用数据来说话。”印度统计学家C.R.RAO表示:“理性来讲,人们的行为过程就是统计。”这些都说明了统计的重要性。
大数据时代为统计提供了大舞台,统计将为大数据添上翅膀。大数据时代的来临,带来新的机遇。我们要真正站在同一起跑线上了,以开放的态度、创新的勇气、不懈的努力抓住历史赋予的机会。今天与古代相比,结绳计数能够记录下的数据与今天海量存储器记录下的数据从数量上是不可比的,但其目的都是为了描述客观世界,不同的是,古代人知道他们养了多少牛羊、知道他们每人分多少,但记录不下来;而今天,我们可以记录一切,但如何使用整合这些数据、改进传统的数据处理分析能力,挖掘出这些海量数据中蕴含的新规律和新见解,这是统计的新战场,也是统计工作者要努力探寻的新领域。从这个意义上来说,我们站在了一个新的起点上。
来源:统计微讯