最后,沈艳指出,“希望这些挑战不要成为推行政府数据开放的障碍,而是前进的动力。我国拥有世界最大的人口规模,从这个意义上讲,大数据资源十分丰富。关键在于要让企业、学术机构和不同群体参与到数据的使用与发掘当中,这对于促进经济发展,实现传统经济向新经济的顺利转型,具有重要意义。”
以下为采访实录:
大小数据运用应根据研究目的选取
海外网财经:如今,海量数据正在以前所未有的广度和深度影响着人们的生活。与此伴随的是越来越多的人开始回归大数据的本源问题,探讨大数据的定义,在您看来,数据、小数据,大数据的区别及联系是什么?
沈艳:为了回答这个问题,我先查了一下词典,我认为韦伯斯特词典关于‘数据’的定义对于理解如今何为大小数据的讨论,有借鉴意义。词典的第一条提到‘数据’叫factory information,就是“事实性信息”,这个事实性的信息是用来推理、讨论和计算的;然后第二条比较有意思,第二条是说由感知装置或者是器官的信息输出。其中,这些信息既可能包含有用的信息,也有可能包含多余的无用信息,需要经过处理才能够有意义的信息。这样一来我们通常要回归到数据的本源上讨论到统计。统计最早开始于人口统计,古代君王想知道自己到底统治了多少人就需要人口统计。
由此我们来看小数据它有几个特点,第一个,它是为特定目的收集的,比如说我要统计这个国家有多少人;第二个,我们看它多半是结构化数据,比如我有一个专门的年鉴,上面记录我们某一年有多少人,男的多少人,女的有多少;第三个,在使用过程中比较透明,大家都拿一本年鉴,看我们俩分析的本领谁更强,所以这个时候不同的学者可以用同一套数据,也可以交叉验证研究结论。
海外网财经:那么与小数据相比,大数据又有哪些特点?
沈艳:大数据通常说有三个‘V’,volum,velocity和variety,主要就是数据量大,实时,种类多等等。大数据的生成过程和小数据不同之处在于大多数的大数据本身并不是为了一个特定目的搜集的,比如说我们在网络上搜索,我们只是为了满足我的需要,但是搜索背后的公司把这个信息利用起来,把它变成了一个大数据。所以,它记录的颗粒比较细,包含很多冗余的信息,它对于分析和处理要求比较高。
所以,这里我打了个比方,好像在同一天有两个孩子出生,A家庭是传统家庭,做法是每年到生日的时候,就带孩子到照相馆照照片,所以十年我有十张照片记录了孩子的成长。B家庭是未来式的家庭,他家里安装摄像头,只要孩子到的地方就会录到这个孩子。这样,这个孩子从0岁到10岁,在这个家里面都有了录像。在这里,A家庭做法类似于小数据,收集的目标很清晰,就是要记录孩子的成长。虽然有可能时间和金钱成本相对比较高,但是输出的结果也是很清晰。第二种类似于大数据的处理方法。
因为技术的进步,允许我们用颗粒更细的方法来记录信息,记录信息的成本大幅降低,我们全部都储存在网上或者移动硬盘就可以记录很多很多信息。但是,这个数据收集的目标是不清楚的,家庭为什么收集这个信息,万一将来有用呢,也说不清楚什么用处,因此它在使用和分析的时候成本就比较高。
我从这个例子想说明,大数据并不一定比小数据更好,其实它取决于你的目的,假如我记录孩子成长,单纯为这一个目的的话,那么我前面说的小数据的例子,我把照片这样放下来,可能是很感人的,很好的过程。另外一方面,如果这个家里出了一个突发事件,孩子受伤了,想知道孩子是怎么受伤的,这个时候你调用颗粒度很细的那个录像,就能够帮助到了。所以当我们说到大数据和小数据的区别的时候,虽然它们在表象上,大数据能够记录更多的信息,但是它的颗粒度更细,它有更多的多余的信息,但是它对于分析的要求是更高的,不见得大数据一定更好,它取决于你要研究的问题,你的目的是什么。
大数据分析需要“大小结合”、“人机结合”
海外网财经:您在之前的采访中提到过,大数据发展谨防“一哄而上”,据悉我国目前数据污染严重,很多原始数据存在夸大或瞒报现象。面对此现状,您认为可靠的大数据分析需要具备哪些关键点?
沈艳:可靠的大数据分析具备什么样的特征。我举一些例子,首先我觉得从我们刚才的比方来看,一个有效的分析它一定是分析目标比较明确,你的目标明确在于什么呢,是不是这个目标只用大数据分析才能实现,还是高质量的小数据就够了,又或者是需要大数据和小数据相结合。可靠的大数据分析,第一个是目标要明确,有的问题高质量的小数据足够了,类似于刚刚我说的,我要记录孩子成长就够了,或者我们要了解一个地区的经济发展的基本状况,回溯它历史发展的年革,一个产业在一个地区的形成、基本的结构和格局,那这些信息,我们其实高质量的小数据就够了,专门部门为我们收集的资料就够了。
另外有一些问题它可能需要大数据和小数据的结合,比如我们曾经做的新经济指数,想要刻画新的经济部门在国家当中的变迁。那么,当你在构造这个框架的时候,就需要结合现有的一些小数据。
第二个关键点,就是数据的质量很重要。其实从我们刚刚那个比方能够看出,即便我有大量的信息,假如我只是这个孩子一个上午的活动,可能还不如我十年的照片给我的信息量更大。所以数据量这里一个常用的说法叫‘垃圾进,垃圾出’,也就是说如果数据源的质量不够好的话,也就不要指望后面分析结果的质量会高。至于原始数据存在夸大瞒报这样的问题,我觉得后面我们还会讲到,更多的是细节,一方面是可能是存在故意,但是不能忽视的事情,度量这个经济活动的各个方面,本来就是很不容易的任务,大数据数量大、实时,更多信息是冗余,所以其实对于数据质量它有更高的要求。
第三就是数据分析方法,你得有好的方法,我才能有好的数据分析的产品和结果,那么其实在我看来,孤立的使用大数据做出好产品的情形我很少看到。
海外网财经:也就是说在实际操作过程中要将大数据和小数据互相融合?
转载请注明出处。