社会焦点

微软亚洲研究院郑宇:人工智能和深度学习,怎么管好大数据下的大城市?自行车小故事动态图(2)

字号+ 作者: 来源: 2017-05-01

房价评估 在我们的这个城市大数据平台里,还有一个专门的数据分析层面,包含三个子层面:最普通的机器学习算法,专门针对时空数据设计的机器学习算法,以及多元数据融合算法。 我们看一下这个例子,我们想对房屋价

  房价评估

在我们的这个城市大数据平台里,还有一个专门的数据分析层面,包含三个子层面:最普通的机器学习算法,专门针对时空数据设计的机器学习算法,以及多元数据融合算法。

我们看一下这个例子,我们想对房屋价值进行相应的排序,并不是预测价格。也就是说北京同样一个市场,如果涨的话谁涨的比较多,如果跌的话谁跌的相对比较慢?

在相同环境下,摒弃政策因素和环境因素。根据涨幅比将房子排序,排完序把房子排好12345等,一类房最好,五类房最差(涨的最慢,跌的最快)。李嘉诚说过,房子价值由三个方面决定,一是地段,二是地段,三还是地段。这三个地段其实可以用数据量化。

第一地段就是周边各类设施配套水平,交通,商场,学校等等这些数据都可以从路网、POI学到。同样是学区,重点学区和普通学校对房价影响非常大,好的商场比破旧的商场对这个地段的价值拉动差距很大。

所以有第二个地段:Popularity,比如人们出行规律非常重要。人们出行的规律已经刻划了这个地方的价值,一个地段坐公交地铁出去,另外一个地段基本上以开车打车出去,你觉得哪地段更高端一点,人的行为可以刻划这个地段的形式。

第三个地段是房子所在的商圈,并不意味着每一个望京区域的房子都是好房子,而要用7-8种数据刻划这个地段的价值。

从每一个数据里面可以提取出来很多的特征,再进行计算。比如说这个房子周边有几个公交车站,离他最近的公交车站多远,离他最近的地铁车站多远,然后可以把它变成排序的问题。这里面体现了不是一个简单的算法就可以解决的问题,很多特征是冗余性,并不是完全独立的,相关性非常大,而且很多特征不是线性的,因此我们要加很多的约束做这个事情。

怎么做验证呢?用2013-2014年的房屋数据预测2015年的排序,2015年过完之后自然知道这个结果怎么样。用搜房网解决这个事情准确率非常高。NDC基本上达到95%以上,这是一个非常好的结果。

这个技术还被应用到上海火锅店的选址以及对城市综合商业体的价值评估。中国一线城市的商业品牌,像万达以及保利商场等等,这些综合商业的评估是非常困难的,但用我们的方法来做是有价值的。2016年的数据已经显示,北京100多个综合商业体哪个涨幅最快,最值得投入,并且形成排序。这个排序也应用于银行业信贷评估,帮助银行业评估综合商业体的价值,决定以后贷多少钱,抵多少钱,通过人工智能评估长期价格增势。

微软亚洲研究院郑宇:人工智能和深度学习,怎么管好大数据下的大城市?自行车小故事动态图

  AI+共享拼车

滴滴以及摩拜,这两个案例与AI联系非常紧密。

先讲拼车,电召车行业做到拼车才是真正的共享化,所以拼车是最终目标。发明拼车的初衷是城市车辆过多与打车难之间的矛盾。在希望车辆总量不增加的前提下,出现了拼车的想法。为了保证用户体验,拼车必须保证满足用户希望什么时间到达目的地的要求。

通过AI找到一辆车接这个人,并且他真正距离最小,这是一个最优的方案。但现在是不是还有别的车,可以满足乘客的到达时间,同时也要征求乘客的拼车意愿?如果可以使乘客的到达时间稍微推迟五分钟,但是可以省五块钱,你愿不愿意?在拼车方案中,保证乘客在规定时间到达,这个是关键的。

通过对车辆距离、预期到达时间与价格之间的动态平衡匹配,最大化满足用户的需求,是一个很困难的问题。这些需求已经超过了人类自己思考可以实现,必须要人工智能后面重新调度。

使用AI技术模拟,把出租车换成一个卡车,把一个人看成货物,上车点是取货地点,乘客下车地点是送货地点。我们把这些应用于顺丰合作,可以在不增加人员的情况把顺丰的吞吐效率提高5%-10%。

实现了当下的优化以后,对未来的优化更加重要。这将涉及到深度学习。

以物流业为例,未来的物流一要看预测,二要看累计最优,三要加时空索引,这三个东西要加在一起。

假设我们把一公里分成很多格子,可以预测未来有多少人进有多少人出,可以预测未来有多少人请求摩拜,有多少人请求滴滴,有多少人订饿了么。我们在贵阳已经开始做这种预测了,在贵阳预测的是每个格子里面有多少出租车进有多少出租车出。能够预测出未来这个地方有多少人请求饿了么的订单。用这种数据来验证我模型的正确性。

做深度学习预测人流、订单量最开始的动机来自于上海市的踩踏事件。踩踏事件发生之后我很痛心地写了一个微博,我说,这个事情可以通过人工智能做预测提前避免,如果提前两三个小时知道未来有多少人去那个地方,就可以从源头分流,不要等到大家都去了去疏解。如果政府能够提前预测量级,可以提前预备安全措施。

类似的公共需求也适用于北京地铁,商业需求则适用于滴滴、摩拜和饿了么等。

但是预测人流量是一个困难的工作,因为相关因素非常多。同时,时间空间数据不同于文本,空间有距离,有层次,时间有周期性,还有趋势性。

比如说交通容量每天都有变化,我们一定要考虑到时间的周期、趋势、临近性,考虑到空间的远近性,把不同的数据进行融合,以及不同的影响因子在不同层次融合。最后得到好的结果。这个数据在北京的出租车得到印证,在美国的自行车租赁系统得到印证,现在拿摩拜进行印证,效果都比以前的方法好很多。

转载请注明出处。


1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。

相关文章