社会焦点

普强信息何国涛:瞄准语音大数据分析和车载,做语音识别就是要快、准和专注

字号+ 作者: 来源: 2017-04-26

普强信息何国涛:瞄准语音大数据分析和车载,做语音识别就是要快、准和专注,基于大数据分析的语音识别技术,易语言语音识别源码,ld3320语音识别原理,车载智能语音助手,电脑语音识别在哪

  本文系i黑马原创 首发黑智(VR-2014)作者:赵雪娇

  语音识别是“最具前途”的领域

  从北京大学和美国费城大学分别获得计算机系硕士学位后,何国涛曾在HP、Aruba等公司从事Opencall、Voice XML、无线网关等产品的研究和开发,HP多媒体服务器的语音识别技术,就是他所在的小组研发的。

  而也就是在Aurba,何国涛结识了蒲瑶。后者本科毕业于中国科技大学,是科大讯飞CEO刘庆峰同系校友,同样也是从事语音识别相关产品的研发。

  2008年,科大讯飞上市,一度垄断国内语音识别市场的半壁江山。但那时的语音识别创业领域,还是一片待开发的处女地。后来被苹果收购的Siri也成立没有多久,而何国涛却动了创业的念头。

  “我刚毕业时,根本还没有人会说自己是学人工智能相关的。因为那意味着失业。”何国涛说。“也有很多人质疑,总是说这个方向不对,那个技术不好。而我们就决定,自己出来,在这个领域做一些事情。”

  何国涛和蒲瑶最终还是决定,在语音识别领域做下去。“创业,我认为一是要有技术壁垒,二就是要有能够赚钱的市场。我在惠普接触了客户需求,也懂得应用,我认为,语音识别仍然是最具前途的领域之一,而当时,其他人要进入这块领域,也并非容易。”为了解决核心算法,何国涛还“挖”来了自己的师弟——IBM Almaden研究中心的李全忠博士。后者一直从事数据库及云计算研究,还获得过IBM发明成就奖。

  于是,普强信息最初的创始团队形成了。何国涛担任CEO,负责公司运营;李全忠博士任CTO,负责核心算法的研究;蒲瑶(普强信息VP)负责产品。2009年,普强信息在美国加州硅谷成立,并获得了EDA之父黄炎松博士的100万美元A轮投资。第二年,普强信息设立了中国运营公司,在硅谷和中关村都设有技术研发中心。2013年,普强获得戈壁领投500万美元B轮投资,2016年获得四维图新领投的近亿人民币的C轮融资。

  目前,普强研发团队占公司人员的80%左右,其中博士、硕士以上学历者超过30%。

  挑战语音大数据分析

  何国涛对公司的发展方向有长期的思考。“小公司做事要专注,现在普强一百多人只做垂直领域,包括车载和电话信道语音识别,而且要做到最好。其实这很简单,就集中优势力量做好一个小事情。”

  普强在自身的语音识别和语义分析技术基础上,就锁定了两个方向:语音大数据和车载。

  当前,由于智能设备的大量应用,大量数据,尤其是呼叫中心等领域,大部分数据都是语音和图像等非结构化数据。普强力图提供语音大数据分析能力,为企业解决非结构化数据分析的需求。

  2010年,普强面向呼叫中心推出了“千语语音识别引擎系统”和“千语千寻语音分析系统”。

  据介绍,普强已经为金融、电信、保险等多个行业,提供了准确度较高的电话信道的ASR(语音识别)引擎。针对呼叫中心座席与客户的对话,千语千寻系统的算法和模型接入后,能将不同地域口音的来电转换成文字,还能根据不同的系统用户需求,标注出关键用词。

  李全忠博士向黑智(VR-2014)介绍,“千语语音识别引擎系统”开发应用了深度神经网络技术,通过语音切分技术和对识别结果的算法,进行语速探测、情绪识别等,以及对讲话对象、时间边界等进行分割,不仅提高了语音识别结果,也可以辅助企业进一步挖掘和分析海量语音数据。

  当坐席和客户通话时,接入了普强的千语千寻系统模型,不仅能将不同方言的来电转换成文字,还能根据不同的系统用户需求,标注出关键用词,并针对其进行统计和专业化分析,挖掘客户需求;对客户流失进行预警分析,挖掘客户投诉原因,进行干预;或者替代人工质检。何国涛举例说,例如某保险公司就有2万左右名保险销售,管理者需要知道如何提高销售成功率,客户投诉的是什么问题,客户购买保险服务的原因是什么等。“千寻”把这些问题都细化成文字,以解决客户的需求,提升公司工作效率和营销转化率。

  进行语音大数据分析,最基本的一点就是数据。李全忠表示,普强在呼叫中心电话线领域积累了十多年的数据,对电话语音数据处理和标注的积累,在业内是首屈一指的。

  而对语音分析,最关键的比拼点,则是“快”和“准”。“准确度和识别速度往往要平衡,在不损失精度的前提下,我们可以做到最快,系统的全文识别率可达85%以上,关键词识别率达95%以上。”李全忠博士说。他表示,千语千寻语音分析系统目前中文语音分析速度,是国内最快的。它拥有的文本分析引擎和索引处理技术,能够实现分析操作在秒级以内完成,而业内多数语音公司的产品则要半小时甚至更久,千语千寻比之,要高出一个数量级。

  除识别引擎及分析系统外,与国内外厂商相比,普强的优势是拥有多年呼叫中心工作经验的专家们所组成的专业咨询团队,以及完整的识别设备和工具,来协助客户进行定制化应用服务,以保障企业最高的投资报酬率。

  而据何国涛对黑智(VR-2014)透露,目前普强在业界公开招投标的项目中,始终保持着最高的中标率。

  联手四维图新,切入车载场景

  经过十多年的发展,四维图新已成为国内数字地图内容、车联网和动态交通信息服务、基于位置的大数据垂直应用服务主要提供商之一。其数字地图一直主导中国前装车载导航市场,获得大量、东风日产、北京现代等主流车厂的订单。而和四维图新的联手,显然加快了普强切入车载场景,迅速渗透车厂和车机系统集成商,积累大数据的步伐。

  2015年,普强联手四维图新和腾讯,共同开发智能车联网大数据系统 WeDrive。其中,四维负责导航,腾讯负责内容,普强主攻前装。

  普强信息何国涛:瞄准语音大数据分析和车载,做语音识别就是要快、准和专注

  这套智能车载语音系统,是由“云+端+芯片”组成的。普强自主研发的是离线、在线的两个声学模型,其他的为集成。

  阵列麦克风可抑制噪音回音,进行声源定位。车载降噪DSP芯片可进行车载降噪去回声,这也是普强的投资方——美国的一家芯片公司提供的。“他们只做芯片,花了大概一亿美金做了十年,这就是壁垒。”

  “从前端麦克风技术,包括硬件的DSP处理三到四个麦克风,到后端的云端,整个一条脉络已经打通了,基本上这个解决方案是最优的。”李全忠说。

  另外,普强还可以做嵌入式识别,车机识别的系统直接在车机里面做,不用跑到云端。车载需要保证稳定性、安全性,对嵌入式识别压力非常大。普强会针对不同的系统和车机本身的噪音特性,分低中高端方案,量身定制识别算法。“把这些都优化进去,才能做到最佳,当然也要满足用户识别率的需求。”李全忠表示。

  目前,普强车载语音系统已经被集成进多家国内主流车厂。普强最近也把嵌入式的算法嵌到四维收购的公司杰发科技,后者占后装市场的70%,大幅提高了市占率。

  用户需求优先的“田忌赛马”战术

转载请注明出处。


1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。

相关文章
  • 普强信息何国涛:瞄准语音大数据分析和车载,做语音识别就是要快、准和专注 | AI创新50

    普强信息何国涛:瞄准语音大数据分析和车载,做语音识别就是要快、准