首页 > 社会焦点 > 正文

讲堂| 谢幸:用户画像、性格分析与聊天机器人

2017-03-25 编辑:

  

讲堂| 谢幸:用户画像、性格分析与聊天机器人

你离成为人工智能专家,还有多远的距离?

近日,四位来自微软亚洲研究院的AI大咖在中国科技大学进行了一场以“开启智能计算的研究之门”为主题的前沿分享。这四位嘉宾分别是:

  首席研究员刘铁岩——人工智能的挑战与机遇

  首席研究员童欣——数据驱动方法在图形学中的应用

  首席研究员曾文军——当机器学习遇到大视频数据

  资深研究员谢幸——用户画像、性格分析与聊天机器人

在接下来的一周里,我们会陆续在本账号中发布这四位研究员的演讲视频及精彩内容,希望这些关于前沿技术的思索能够开启属于你的智能计算研究之门,敬请期待吧!

昨天我们发布了刘铁岩博士的演讲——。

第二位与大家分享的是谢幸博士的演讲——用户画像、性格分析与聊天机器人,全文如下(文字内容略有精简)。

我今天讲的题目叫用户画像、性格分析与聊天机器人,看起来这三个词汇好像互不相关,但其实它们有很强的联系。而这三个词也总结了我们微软亚洲研究院社会计算组最近几年所做的一些研究工作。

首先,之前讲了很多大数据,大数据里面有一类很重要,那就是用户产生的大数据,什么叫用户产生的大数据呢,就是我们每天的行为都会被用数字的方式记录下来。比如手机的各种APP,手机上定闹钟等等,这些都会记录下手机上的一些行为。再比如坐出租车、坐公交车,也都有一些记录,这些轨迹可以用在后续的一些改善服务,或者用在一些数据挖掘里面。

再比如用社交网络,在社交网络上,给商家、餐馆或者商店写的评论,打的分,或者给电影、书籍写的评论,这些都会被记录下来,可以用来分析一个人的兴趣爱好,从而做一些推荐。

大家可以想象,当用户数据越来越多的时候,实际上我们可以非常全面地去了解一个人。过去几年我们一直在做用户画像,用户画像可以有很多维度,比如个人属性,年龄性别等。还有性格,性格有很多种分法,实际上我们也是在想怎么通过用户的数据去看用户是什么样的人。当然,有很多人是研究用户兴趣,兴趣直接就可以用来做推荐,做广告。还有,比如用户当前的状态,用户的社交关系,用户未来的计划,我们可以做一些预测。

用户画像可以做很多维度,而每个维度又可以做很多事情。当然,要做这样一个用户数据的研究,首先需要有用户数据,到底从哪里去获取用户数据,大概四年前,我们在中文的社交网络上搜集了一个比较大规模的用户数据集,叫LifeSpec,很多跟我们合作的学校的老师们都已经用这个数据集和我们做过一些联合的研究。

LifeSpec包括比如照片、评论、用户自己填写的个人属性,或者签到过的地点等。但这里强调的是我们试图把同一个用户在不同网站上的数据连接到一起,如果可以联系到一起,那么就可以非常完整地去了解这个人。我们搜集了大概140万个用户的数据集,要求一个用户至少有一个跨网络的数据。

通过这样一个数据集可以做很多以前做不了的事情。比如做一些跨网站的用户画像,看豆瓣上的信息,是不是能猜到用户在微博上的行为,或者通过地点来推测个人属性等。这个以前做是比较困难的,因为这样的数据并不存在,但现在就可以做这样的事情。这个数据大概有5000多万条,有社交关系的有300多万条,还有将近4000万条位置数据。

  

讲堂| 谢幸:用户画像、性格分析与聊天机器人

这个表展示了在不同城市的数据,因为用户填写了很多城市,有了这个数据集,就可以做很多研究。比如做位置预测,位置预测本身并不是一个新的问题。而我们关注的是分析用户,如果是游客或者是本地人,他们有什么样的区别,通过这个数据我们发现了不同,甚至还可以用这些不同来猜测一个用户是不是真正的本地人。因为在中国人口的迁徙是非常多的,这样一个迁徙所带来的人的行为变化,很多时候反应了一些社会问题,所以之前有很多媒体十分关注我们的这个研究,而这还可以做很多下一步的研究。

如果有这么多用户的位置数据,我们是不是能够通过用户的位置数据来给用户画像呢?实际上这个工作在之前做的比较少,因为这样的数据并不多,所以没法来评测算法好不好。而我们这个数据集就可以用来做这件事情,我们可以去看这些位置的签到和用户的属性之间到底有什么样的联系。

比如有两个人,第一个在中关村上班,他住在机场附近的别墅,经常出没于美国。第二个人经常在街边的小餐馆吃饭,又经常去图书馆,周末可能还去KTV,那么第二个人可能更像是一个学生。这样的区别,我们实际上是可以通过数据来发现的。也就是说我们希望通过用户去过的地点,来把用户的属性猜测出来,比如年龄,性别,甚至教育程度。

这里其实我们就关注三点,第一,我们可以知道用户的移动规律,移动规律就是用户每天早上去哪,晚上去哪,周末去哪,平时去哪等,这样的时间规律对于区分用户很有用。

第二个,是地点的规律性,每个人都有一些常去的地点,大部分人的常去地点是家,另外一个是工作单位。当然,还有经常去的商场、餐馆,通过常去的地点以及时间也可以来对用户进行分类。

我们又加上一些额外的知识——位置知识,就是去过的这些地点,如果只把它当作一个地图上的点来看,信息量太少了,但把这个地图本身的知识加进去,比如前面讲的,住在机场附近,或者工作的地点在中关村等等,这个信息量很大,我们可以用这些信息来帮助做判断。最后把这三方面的信息结合起来,就可以更准确地判断用户的各种属性。


大家都爱看
查看更多热点新闻