讲堂| 谢幸:用户画像、性格分析与聊天机器人(2)
2017-03-25 编辑:
我们之前做了很多用户画像的工作,比如,通过用户的数据,我们能不能进一步知道用户的性格。要了解性格首先要有一些用户,我们能够知道他的性格,又有他的数据,而这件事情在过去很难获取,因为很少有这样规模的数据。
为了做这件事情,首先我们去看到底什么叫性格。性格的分类科学存在于心理学,我们了解到2000多年前,古希腊有一个医学家开始研究性格,他认为人体是由四种体液构成,包括血液,黏液,黑胆汁和黄胆汁,而这四种液体的分布决定了人的性格。他基本上把性格分为两个维度,一个维度是外向、内向,另外一个维度是情绪化和不太容易情绪化。
到了100多年前,近代的心理学家们从语言出发来研究人的性格。他们发现如果要研究性格,首先这个性格一定要能用语言来描述,这个叫做词汇学假说。比如说一个人是否非常健谈,是否非常冷静,冷静或者健谈这样的词汇实际上就是一个很概括的性格的一种分类。
通过查看词典,心理学家找到了4500个可以描述人性格的词,并在此基础上进一步缩减、归类,总结成五个维度,叫大五人格。
大五人格的五个维度,每个维度可以再细分成六个小的维度。要了解一个人,一般来说会先邀请这个人来做问卷调查,之后通过答案去计算他的大五人格是什么。但问卷调查的方式很多时候很主观,有的用户他也不知道自己是不是比较健谈,有的比较外向的人,会谦虚说自己比较内向,所以其实很不准确。
怎么样能做到准确呢?实际上,用观测的方法,比如别人的评价,或者基于很多数据的评价,因为观测和自己的理解是不太一样的。
前面我们讲,我们已经有很多用户数据了,通过这些用户数据其实就可以来观测一个人,通过这些观测再来算出人的性格实际上是可行的。
最近几年有一些这样的工作,2013年微软和剑桥大学合作的一个工作,当时就通过Facebook上的数据集来计算Facebook上点赞这个信息和用户性格之间的关系。
我们进一步做了研究,发现用户的数据有很多来源,不光是点赞,还有文本的信息、图像,尤其是用户自己上传的头像,还有喜欢用的表情符号、对话聊天的规律,以及用户自己填写的个人属性,因为这些数据在我们LifeSpec数据集里面都有,我们就可以把它联合在一起来做这件事情,而不只用某一个角度的特征。
所以针对每一种类型的数据,我们都用了一些最新的方法来做计算特征,最后用集成学习的方式来得到最后的结果。
举几个例子,针对文本当然可以做很多事情,前面讲了有大五人格,我们可以看这些文本跟每个维度的关系。
外向性高的人喜欢在微博里写青春、自我、突然,而外向性低的人会写面对、特别、失败、做好。我们可以发现他们用的词的确很不一样。
再来看用户的头像,我们发现头像和性格之间也有一定的联系,比如外向性高的人头像会有卡通,或者表情很夸张。外向性低的人,会用下面这些头像,但这只是一些典型的例子,并不是说所有人都用这个头像。这里面其实也可以用到很多人脸识别或者物体识别的技术。
第三部分就是聊天机器人。我们做聊天机器人是在想用户画像还有性格分析这样的结果到底有什么用途。我们发现现在聊天机器人都有一个特点,它很多时候是用群体的数据来训练的,最多能做到像一类人,但是不能像一个具体的人。
怎么才能够让它像一个具体的人呢?这里面首先的难点是某一个人的数据很难获取。我们需要这个人的聊天数据,如果我们能获取某一个人的数据,那么实际上我们就可能训练出跟他很类似的一个聊天机器人。
在《黑镜》的第二集里就讲到一个未来的人工智能公司用聊天数据和社交网络数据训练出了一个跟死去的人一样的机器人。2016年,一位俄罗斯的创业者用他已故朋友的8000条短信训练了一个聊天机器人。
但是如果数据不够多,那么是不是能通过具有某种特点的一群人的数据集来训练出具有一类人特点的机器人,比如儿童,学生或者诗人等,让人感觉到这个机器人具有某一种性格或者特点。这个工作是我们最近在研究的。另一方面,我们也在关注到底做这样的聊天机器人有什么用途,其中一个应用就是心理治疗,为什么关注这个,实际上也是受启发于50年前的项目。
1964年,有一个很有名的项目叫Eliza,很多人讲人工智能的时候都会提到这个项目,Eliza就是一个很早期的聊天机器人,在当时它的效果非常好,以至于很多人都认为是真人在背后操纵。
Eliza实际上做的就是心理咨询师,也就是说这个聊天机器人可以跟人聊天,试图帮助缓解心理问题,它当时采取的一个心理治疗的方法叫罗杰斯流派的方法,比较强调倾听,所以这个机器人很多时候是在听你说什么,而不是在回答问题,它一直在引导人说话。这件事情相对来说比回答问题要容易,但是效果非常好。
基于这个项目,我们受到了启发,想结合最新的技术来做这件事情。首先我们也是试图去引导对话,让用户更多来说自己的事情,这其实是很多心理咨询里面很重要的一点。
当然,在这个基础上,我们进一步去研究,包括通过聊天的数据,也通过用户本身,如果能获取其他的数据,研究用户的心理特质和精神的一些问题,来看看将这些数据结合到一起更准确地做出判断。
再进一步,我们想除了倾听,是不是还可以通过聊天的方式帮助用户缓解问题。比如采取最新的认知行为疗法以及正念疗法等心理学的技术,把它集成在聊天里,这也是我们最新的一些尝试。