搜狗许静芳:AI时代解决搜索全、准、便捷性的问题
2017-04-29 编辑:
“全、准和便捷是搜索引擎需要去满足用户的三大需求。搜索的天职和使命,是为了满足人类永不停止的求知欲。”
2017年4月28日下午,2017年GMIC大会如期而至,本期大会最核心的亮点是开设了大热的人工智能公开课,邀请了来自谷歌、IBM、亚马逊、英特尔、卡耐基梅隆大学、斯坦福大学、加州大学伯克利分校、南加州大学的全球顶尖人工智能专家零距离授课。搜狗首席搜索科学家许静芳女士应邀在活动上进行了主题为《从搜索到问答》的分享,梳理了从PC时代到移动时代、人工智能时代搜索引擎的变迁,指出搜索的未来的方向是精准问答,并且,各大搜索引擎公司都在朝此方向努力。
PC时代,搜索引擎是绝对的互联网入口
1995年到2010年左右,大家都在用个人电脑使用互联网、使用搜索引擎,在那段期间,几乎所有信息都存在于网页上,搜索引擎面对的信息的载体是相互关联的网页,人为了找到答案,被训练成使用关键词进行搜索。
对于全的定义,是索引量,所有的搜索引擎都呈指数级增长它的索引量,到1997年、1998年Google入局以后,非常快速地引领了整个发展;对于准的追求,各家搜索引擎需要计算出网页的权威性、重要度,最终返回给匹配用户的查询词;便捷性在这个时代,是用多模态的方式解决的,到后来发展成为开放平台,即第三方垂直服务商把内容提供给搜索引擎,搜索引擎用搜索结果呈现,并把流量导给处置提供商,所以在PC时代搜索引擎是绝对的互联网入口。
移动时代,从搜索信息到搜索和连接万物
2016年的时候,国内的移动搜索用户规模已经达到1亿,并且用手机来搜索的用户还在持续性的增长。从搜索收入来看,移动搜索收入统计明显大于PC搜索,有数据预测,到了2021年,移动搜索的收入应该达到PC收入的9倍以上。在移动时代,搜索的设备、输入方式和信息载体都发生了显而易见的变化。
移动时代,为了解决全的问题,搜索引擎需要打通网页与App之间的壁垒,比如搜狗搜索可以对微信和知乎进行独家搜索,这就使得信息来源更加全面;为了使得结果更准确,工程师通过分析click model去评估网页与产品Ian的关系,对查询词进行更加深入的需求分析,更进一步的,把机器学习的框架引用到搜索排序中,解决在给定固定的用户查询下,去学习不同文档之间的篇序关系以此改善搜索结果。便捷性方面,输入方式更加多元,用户可以输入语音和图像,搜索引擎应用语音识别和图像识别,转化成文字或物体再去做搜索;利用语音合成技术,还可以把搜索的结果念给用户听。与此同时, 移动时代诞生了很多服务的APP,搜索和服务打通以后,可以在搜索内部完成服务的闭环,便捷用户使用体验。
在移动互联网时代,搜索上发生比较大的变化,已经从之前的搜索信息到搜索和连接万物——这是它的使命,也是我们努力的方向。
人工智能时代,从搜索到问答
人工智能时代 ,搜索将过渡到任何一个可以联网的智能化设备,包括智能车载、智能家居或者服务机器人等。在输入方法上,用户从关键词的输入,逐渐转向了语音、图像等模态,搜索的使用,逐渐从人去适应机器变成了机器来适应人。人可以用自然语言与机器交流,可以用问句的方式向搜索引擎提问,搜索引擎不再是返回10条结果,而是像人一样给出答案和建议。人工智能时代搜索将转变为问答,去满足大家求知欲。
在这种背景下,搜索引擎将扮演三种角色,其一是命令与执行,通过问答完成定机票、餐饮等需求;第二类是情感陪护,通过问答完成情感层面的陪伴;第三类是寻求建议,人和机器就像朋友,有问题会去询问,机器听到问题后,经过思考,在他的知识体系下给出答案、建议或评论。这就要求机器要够一定的能力,在此基础上建立完整的知识体系,把这些内容结合直接给出答案——搜狗的人工智能答题机器人就是第三类角色一个很好的尝试,他已经能够和人类同台竞技强大题目,并表现出压倒性的优势。
人工智能时代,搜索背后的技术也发生了一些变化,搜索结果不再是匹配,而是走到了理解的角度。搜狗的理解是从符号主义过渡到连接主义——以前把词和词之间定义为高维空间向量的相互独立的向量,通过这种分布式的表达,需要把它放到一个相对低维的、但是连续的向量中。在词理解的基础上,利用CNN、RNN这种目前比较流行的网络结构,对句子、篇章的结构进行建模,对整个比较大的单元理解。有了前面这些理解,在搜索场景下,搜狗可以把用户的查询、用户的问题,把网页文档的信息都用DNN、CNN、RNN这种网络结构去表征,最终通过用户已经在搜索引擎上发生的行为,在大量的海量的监督数据里面,进行批量的监督学习。
在演讲的最后,许静芳这样总结到:“搜索引擎天生就是用来满足人的好奇心和求知欲的,在今天人工智能的时代里,我们希望在之前的基础之上,做到语义的理解与知识体系的构建,最终达到让搜索引擎成为人类的朋友——有问题,就直接用自然语言跟它交流,它能直接给你回答。”
相关阅读:
相关推荐: