如何大数据淘金?联想大数据专家说要靠这七种武器
2017-05-18 编辑:
据IDC刚刚公布的《数据时代2015》预测报告数据显示,到2025年全球数据量有望达到163ZB,将是目前全球数据量的十倍。由万物互联引发的数据大爆炸,对任何企业和个人而言,既是挑战,也是机遇。
如何在大数据时代利用大数据挖掘来获得财富和机遇?传统行业如何引入大数据技术为己所用?AI在大数据分析中有何作用和价值?围绕业界普遍关心的热点问题,近日,《老尚看科技》采访了联想企业级大数据分析平台LEAP(下文统一简称为LEAP)的相关负责人和技术专家,通过他们的专业回答,我们可以逐步看清大数据挖掘的实现路径。
大数据平台要有什么绝招,才能应对数据大爆炸?
有专家曾经预言,大数据将成为未来最重要的生产资料,大数据的挖掘、归类、分析和利用能力的高低,很有可能会成为未来决定商业成败的关键因素。就像石油驱动着现代工业不断向前,用计算驱动数据,正在成为驱动科技和社会进步的重要力量。
联想是中国最早倡导和践行中国智造的科技企业之一,而LEAP平台则是联想全球化运营和智能制造转型的关键支点。据悉,目前联想拥有大数据平台开发与运维人员超过500名,大数据专家、 数据科学家、与业务专家人数超过了50名;在全球部署了 9个数据中心, 拥有超过2000台服务器,目前存储总容量规模已达15PB, 数据实际总量达到 12PB以上,日新增数据量约30TB,日处理涉及数据超过150亿条,是国内最大的制造企业数据集群。联想的大数据处理能力仅次于BAT三大互联网巨头,其LEAP平台目前已实现99.9%的全球高可用性。
在联想大数据高级经理张建伟看来,简单的把数据收集上来做统计与整合,即使效率再高也很难给客户带来价值,真正能给客户带来价值的是海量数据的高效计算能力。通过人工智能、深度学习、知识图谱以及包括数据分析等在内的高端建模,来使这些数据和实际业务产生关联,从而对业务的运营、营销产生推动、指导,这样才会产生所谓的“智”。
未来数据的激增,不只是企业数据中心产生的大量核心数据,企业级计算机和设备产生的边缘数据,以及数以千亿计的终端数据同样也增长迅猛,那么如何应对大数据动辄七八年就要暴增10倍的挑战?
张建伟认为,大数据时代真正来临,有四大挑战必须面临和应对:
第一,海量数据的存储。如何采集并存储这些海量数据?这是联想LEAP平台、以及其他所有大数据平台都面临的问题。从平台层面来看,要看平台的横向扩展应用是否可以无缝衔接。假如达到100个节点,扩展将非常复杂,很可能会遇到由于数据翻倍增长而带来的处理时间不够用等问题。 联想企业级大数据分析平台的优势则体现在,LEAP Manager可以实现数据整个计算节点的动态扩展,包括数据的动态分发,这种方式不需要停机,不需要停止现有的业务就可将原来10个节点的数据集群扩展到100个,甚至更多,整体数据量会自动更新,客户无需花费精力关注数据如何更新。
第二,基于技术的演进,如何让用户无感地进行更新。大数据是源于社区相关的技术,其演进迭代快速,基本上每年会有一个大版本的更新。基于不同大版本的演进,解决了包括产品自身的丰富性等问题。很多平台在版本迭代时很难做更新,尤其是一些开源技术,在做大版本迭代的过程中,对底层日志或数据的存储结构都做了很多优化或修改,基于现有正在运行的业务系统,很难将其业务及组件进行升级,而联想LEAP平台支持组件的滚动升级,通过LEAP Manager,用户即可实现此项操作。
第三,海量数据的管理。物联网的数据来自于多种终端,数据类型大多是是异构多元的数据,如何管理?联想LEAP平台的DataHub,能够提供标准接口和标准可配置的模板,可以快速地对接口进行扩展。如果是标准接口,不需要做额外工作,就可以快速对数据进行扩展,来满足数据增长的新需求。
第四,新旧数据如何融合。联想LEAP平台上有自己的数据资产管理工具,能够对整体数据进行分类和标准化,对数据质量和生命周期进行管理。海量数据进来后如何使用,一定是需要依靠企业内部的业务人员、管理人员和相关的行业专家、数据专家等,共同解决海量数据进来后对客户业务产生的影响、对业务优化产生的新方向等问题。
为了应对数据大爆炸的挑战,联想LEAP平台还有一个秘密武器,即LEAP AI。LEAP AI可以通过深度学习相关的算法和行业应用,把联想之前的成功案例和算法全部集中起来,帮助客户快速认知新数据所带来的业务价值,以及快速挖掘新数据所带来的影响。
大数据挖掘,联想有七种武器
大数据是一座公认的金矿,而如何挖掘各家各有套路。据张建伟介绍,联想大数据的核心就是联想LEAP平台,围绕LEAP平台的核心计算能力、存储能力以及数据采集能力,联想构建了七种服务,也成为大数据分析的七种武器。
第一种服务,规划和设计的服务。很多企业在做大数据或应用大数据的过程中走了一些弯路,究其原因,往往源于顶层设计不够清晰,先从底层技术变革去推动,然后慢慢用敏捷迭代的形式去完善。所以,联想在总结经验之后,把咨询服务放在所有项目实施之前,联想的大数据专家会基于联想大数据LEAP平台帮助客户提供规划设计服务。
第二种服务,平台搭建服务。对于那些已经很清楚数据来源及如何使用的行业客户,他们缺少的是包括数据计算、收集等在内的基础承载平台。联想的渠道伙伴中不乏一些行业应用经验丰富的ISV,但这些ISV缺乏底层的基础平台对大数据进行深度的挖掘和支撑。同时从大数据平台的研发成本和时间周期上来看,很多ISV又无法把更多的精力侧重于基础平台的研究。他们更多的是侧重于行业,包括某一个领域纵向的深入挖掘。这时,他们就需要一个强大的服务商或供应商,来帮助他们提供平台,包括基于其业务场景的一些平台大数据技术的深度优化和服务。
第三,是数据质量、数据管理服务。数据往往具有海量、多元、异构的特征,针对这些数据,如何在企业层面对数据的标准、质量、安全及整个数据生命周期进行管理很关键。这一套数据治理,不是一个工具可以解决的,更多的是通过咨询、服务去帮助客户梳理构建业务流程和体系,将整个数据资产梳理清楚,以便于其对数据资产更好地掌控及应用。