今年的政府工作报告中提到,加快大数据、云计算、物联网应用,以新技术新业态新模式,推动传统产业生产、管理和营销模式变革。这已经是“大数据”相关表述连续第四年被写入政府工作报告。乘着“两会”的春风,“大数据”再一次成为大众讨论的焦点。
如何进行可靠的大数据分析?目前国家对大数据战略的落实状况如何?政府数据公开的过程中面临着哪些挑战?带着这些问题,海外网财经对话北京大学国家发展研究院教授沈艳,对此进行探讨。
北京大学国家发展研究院教授沈艳
沈艳认为,近几年在促进大数据产业健康发展方面,我国已经积累了相当丰富的经验。“未来,若想让政府有步骤、有计划地推行数据开放,需要专门的机构来统筹数据治理工作。”
大数据分析需要“大小结合”、“人机结合”
信息时代,海量数据正在以前所未有的广度和深度融入人们的社会生活,推动着诸多行业的变革。然而,在实际的数据应用过程中存在着数据源“污染”严重,原始数据夸大或瞒报的现象。对此,沈艳认为,“可靠的大数据分析首先需要回归数据的本源问题,明确小数据和大数据的区别及联系,然后根据分析目的来明晰大数据和小数据的选取。”
沈艳提出,“小数据往往是为特定目标的收集,多为结构化的数据,在使用中也会比较透明。而大数据多为人类活动的衍生信息,技术进步容许采集颗粒度更细的信息,成本也大幅度降低。但是它包含不少冗余信息,对于分析和处理的要求可能更高。”
“当我们说到大数据和小数据的区别的时候,应该弄明白一点:虽然它们在表象上,大数据能够记录更多的信息,但是不见得大数据一定更好,它取决于你要研究的问题以及目的。”沈艳解释说。
谈及可靠的大数据分析需要具备哪些要素时,沈艳认为至少要有三个关键点:第一是分析目标明确;其次是数据质量要高;第三则是数据的分析方法要科学。
在沈艳看来,孤立使用大数据做出来好产品的情形并不多见。“可靠的大数据分析往往具有‘大小结合、人机结合’的特征。”
“大小结合”不仅是指大数据分析往往需要借助小数据,还指大数据分析出的结果也要用小数据来检验。“谷歌流感趋势近年来对于流感的预测远不如美国疾控中心的小数据准确,这就说明方法还需要进一步调整。”沈艳认为。另外,“人机结合”则是说大数据分析出来的结果也需要经过人的直觉和经验,避免“垃圾进、垃圾出”,这就需要跨界的高素质人才参与到数据质量评估、数据分析的工作中来。
大数据战略逐步推进,智能制造将成主攻方向
近两年,随着大数据的概念逐渐普及开来,大众不仅对大数据以及大数据分析有了更加深入的理解,大数据作为重要资源也逐渐被提上国家战略。
谈及国家对大数据战略的落实状况,沈艳提出,“对于这一问题,我们可以从‘大数据’一词在历年政府工作报告中出现的措辞变化中一见端倪。”
今年的政府工作报告,大数据在两处被提及,一是总结2016年工作时指出,“深入推进‘互联网+’行动和国家大数据战略,全面实施《中国制造2025》”;二是在2017年工作重点中,提出“深入实施《中国制造2025》,加快大数据、云计算、物联网应用,以新技术新业态新模式,推动传统产业生产、管理和营销模式变革。把发展智能制造作为主攻方向,推进国家智能制造示范区、制造业创新中心建设,深入实施工业强基、重大装备专项工程,大力发展先进制造业,推动中国制造向中高端迈进。完善制造强国建设政策体系,以多种方式支持技术改造,促进传统产业焕发新的蓬勃生机。”
回看近四年的政府工作报告,沈艳表示,“在2014年,‘大数据’还处于‘头脑风暴’阶段,国家对于它的期望是可以赶超先进,引领未来。到了2015年,政府开始推动大数据与现代制造业相结合。2016年展望十三五期间,用的词是‘促进’,而今年对于过去工作的总结是‘深入推进’国家大数据战略。”沈艳强调,“尤其值得注意的是今年的政府工作报告指出,‘加快大数据、云计算、物联网的应用’,在具体应用的引领方面上,方向更加明确,提出以发展智能制造作为主攻方向。”
“这表明,在促进大数据行业健康发展方面,我国从过去几年的大数据产业发展中已经积累了相当丰富的经验,对于大数据与传统产业协同发展的新业态模式,明确了‘智能制造’这个切入点。在可以预见的未来,智能制造有很大的发展空间。”沈艳分析称。
政府数据公开需要专门机构统筹治理
目前,70%-80%的政府数据还处于“地下水”的状态。既然大数据已经由概念逐渐落地被提升为国家战略,那么进一步激活政府数据、释放数据价值将是政府和大数据产业面临的重要议题。对此,沈艳认为,可靠的大数据分析,需要“大小结合”。大数据质量的优劣,不少时候需要高质量的“小数据”为锚定标准。在这个层面上,政府数据开放的程度和广度对产业未来的发展至关重要。
而政府部门在开放数据的过程中也会遇到着一些挑战,具体到统计部门,沈艳认为主要面临着三个方面的实际困难。
第一,开放数据的合法性。就《统计法》而言,虽然提到“县级以上人民政府统计机构和有关部门统计调查取得的统计资料,除依法应当保密的外,应当及时开放、供社会公众查询”,“但是其他相关条目让地方统计部门不易拿捏哪些信息需要开放、哪些不需要开放。”沈艳表示。
第二是数据标准不一,质量良莠不齐。沈艳坦言,“不要说合并不同省份不同部门的数据,就是一家大型机构内部的数据,都可能因为定义不同、质量差异大而不好使用。”第三则是数据共享标准不清。沈艳提到,“数据的价值关键在于整合。但是,不同部门之间哪些信息可以共享并不清楚。”
谈到如何应对这些挑战时,沈艳建言,“要让政府有步骤、有计划地推行数据开放并达到期望的效果,需要专门机构来统筹数据治理工作。这可能需要政府的高层领导负责,这样才能从全局把控、制定相应标准。”
同时,需要有关部门进一步明确“开放什么”、“对谁开放”和“如何开放”的问题。“对于‘开放什么’的问题,可以梳理各国已经开放的各类数据,订立我国逐步开放数据的时间表。”沈艳认为,“关于‘对谁开放’和‘如何开放’,这里需要明确的是开放并不等于免费和对所有公众都开放,需要将数据按照等级分级。”她强调,“那些满足公众知情权的基本数据要免费开放,对于其他组织、全体,则应考虑不同的安排。在这个过程中,既要满足公众知情权,又要保证数据安全在可控的范围之内。”
转载请注明出处。