聚焦应用和图计算、十亿级大规模机器学习,大数据议题曝光
2017-04-30 编辑:
5月18-19日,北京 ? 朝阳门悠唐皇冠假日酒店,CSDN主办的中国云计算技术大会将围绕最热门、最前沿的云计算技术与行业实践重磅登场。本次大会上,超过50位Spark、Docker、Mesos、Tensorflow、Serverless方面的专家将汇聚一堂,和超过2000名开发者共襄盛举。
在19日的大数据核心技术与应用实战峰会上,来自Hortonworks、滴滴出行、科大讯飞、东方国信、清华大学、HanSight瀚思、金电联行、北京邮电大学、Apache HAWQ团队等九位专家将带来各自领域的最新实践,议题极具参考价值,涵盖大数据在金融、运营商的最新应用,也包括图计算技术优化、十亿级别特征的大规模机器学习、HBase在滴滴的应用、大数据管理引擎HAWQ,大数据安全分析在电子银行业的探索和实践等热点话题。
详细日程
查礼 出品人
出品人简介:查礼,现任中国科学院计算技术研究所副研究员,网络科学与技术重点实验室系统软件组组长。主要研究方向是分布式系统及大规模数据计算,包括分布式系统软件体系结构,大规模分布式资源管理及任务调度,大规模数据计算系统等。2007年以来,作为技术总负责人参与国家863计划课题“中国国家网格软件研究与开发”,负责软件总体设计和核心技术研发。参与XtreemOS,OMII-EU/OMII-UK欧盟第六框架和英国e-Science国际合作项目。是Hadoopin China开源社区发起人,Hadoopin China 2008-2011大会组织者。
讲师/演讲议题
王虎 东方国信大数据中心总监
演讲议题:大数据核心技术在运营商的应用与实践
讲师简介:王虎,东方国信大数据中心总监。多年来专职服务于电信行业的BI、大数据(Big Data)领域的技术及业务研究,参与并实施过中国移动、中国电信、中国联通等多个项目,主要为电信行业的信息化建设提供技术咨询和实施服务,熟悉电信企业从生产系统到分析系统的整个信息化流程,对企业的信息化建设方面,能够提供从数据中心建设到应用系统开发的一整套解决方案,并对电信行业的高端客户管理、预测、维系、服务有着深刻的理解和研究,曾多次参与相关业务/数据规范的编写和制定,有丰富的数据库、软件方面的设计、研发、管理经验。
议题简介:
运营商未来大数据架构演进方向探讨;
基于“开源+自主研发”相结合的运营商大数据核心技术体系分享,从传统的数据中心走向以”云计算+大数据(平台+数据)+平台工具”软件的私有云;
运营商大数据核心技术应用场景分享,包括云计算实践、大数据实践、业务应用实践。
听众收益:运营商大数据架构,运营商大数据技术体系,运营商大数据技术在平台、决策、营销、服务等业务应用方向。
陈康 清华大学计算机系副教授
演讲议题:图计算优化技术探索
讲师简介:陈康,清华大学计算机系副教授。1999年在清华大学计算机科学与技术系获得工学学士学位,其后在清华大学计算机科学与技术系高性能计算研究所攻读博士学位。2004年7月获得工学博士学位。获得博士学位之后加入英特尔(Intel)中国研究中心有限公司,任高级软件工程师。2007年开始至今在清华大学计算机系工作。主要研究方向是分布式系统,存储系统。参加与主持多个国家863,973以及自然科学基金项目。2014年度电子学会技术发明一等奖,2015年度国家技术发明奖二等奖。在分布式计算方面,主要工作包括将Paxos算法和纠删码结合在一起,提出新的协议,能够满足跨数据中心的一致性要求,同时降低数据传输量(HDPC2014)。在云计算方面,通过竞价模式,在满足可靠性要求的同时,能够降低系统的开销(HDPC2015)。在移动计算方面,通过修改Android的操作系统的交换分区方式,提升应用程序的响应性能(IEEE Transactions on Computers 2015)。并在图计算,计算机系统结构方面也进行了研究。
议题简介:图计算是今年来的一个研究热点,在机器学习,数据挖掘中有重要的作用。图计算的性能也是限制图计算应用的重要原因,如何提高图计算的性能是系统领域一个重要的研究热点。本讲座将对图计算方法的性能研究进行介绍,以几个具体的例子帮助听众理解相关的优化方法。
听众收益:体系结构的介绍,图计算的热点分析,单机图计算与多机图计算优化方法的异同。
梁堰波 Hortonworks 研发工程师
演讲议题:基于Spark的面向十亿级别特征的大规模机器学习
讲师简介:Yanbo is an Apache Spark Committer working at Hortonworks. His main interests center around implementing effective machine learning algorithms and building machine learning applications based on scalable distributed system. He is an active Apache Spark contributor, delivered the implementation of some major MLlib algorithms. Prior to Hortonworks, he was a software engineer at Yahoo!, Meituan and France Telecom working on machine learning and distributed system.
议题简介:Apache Spark MLlib provides scalable implementation of popular machine learning algorithms, which lets users train models from big dataset and iterate fast. The existing implementations assume that the number of parameters is small enough to fit in the memory of a single machine. However, many applications require solving problems with billions of parameters on a huge amount of data such as Ads CTR prediction and deep neural network. This requirement far exceeds the capacity of exisiting MLlib algorithms many of which use L-BFGS as the underlying solver. In order to fill this gap, we developed Vector-free L-BFGS for MLlib. It can solve optimization problems with billions of parameters in the Spark SQL framework where the training data are often generated. The algorithm scales very well and enables a variety of MLlib algorithms to handle a massive number of parameters over large datasets. In this talk, we will illustrate the power of Vector-free L-BFGS via logistic regression with real-world dataset and requirement. We will also discuss how this approach could be applied to other ML algorithms.
陶征霖 Apache HAWQ Committer, PMC
演讲议题:云时代大数据管理引擎HAWQ++