社会焦点

普强信息何国涛:瞄准语音大数据分析和车载,做语音识别就是要快、准和专注 | AI创新50

字号+ 作者: 来源: 2017-04-26

普强信息何国涛:瞄准语音大数据分析和车载,做语音识别就是要快、准和专注 | AI创新50,c#语音识别开源,车载语音对话视频,win10语音识别怎么关闭,电脑语音识别在哪,word语音识别功能

  继在年初预告之后,黑智(ID:VR-2014)的年度50家创新公司采访计划已经正式启动。在今年的系列“AI创新50”采访策划中,请和我们一起走近人工智能领域的创新公司,对话AI行业领军人物,寻找人工智能技术和行业结合、走向商业落地的机遇。

  未来已来,只是也许你还没有注意。而这里,讲述的就是AI的商业价值,以及那些人的故事。

  本期采访嘉宾:普强信息CEO 何国涛

VoiceLabs近日发布了《2017年语音报告》,预计语音交互的市场规模将超过200亿美元。国内外互联网巨头,包括车厂都在不断收购初创语音技术公司,抢夺语音交互的赛道。亚马逊开放Echo音箱的语音识别技术;Facebook创始人扎克伯格去年自己花100小时完成AI管家Jarvis的开发……

作为中文智能语音和语言核心技术提供商,成立于2009年的普强信息,对自己的发展路径,也作出了清晰的定位:专注语音分析系统,实现技术产业化。普强自主研发的“千语千寻语音分析系统”,针对呼叫中心,切入语音大数据分析业务。2015年,普强切入车载场景,联手四维图新和腾讯,共同开发出“云+端+芯片”的智能车联网大数据系统。

普强CEO何国涛认为,算法是公司的技术壁垒,在此基础上,积累大数据,做语音数据分析,以理解用户、挖掘刚需市场,则是在语音识别领域,切分巨头市场的一大法宝。

文 | 赵雪娇

编辑 | 黑智(VR-2014)

  语音识别是“最具前途”的领域

从北京大学和美国费城大学分别获得计算机系硕士学位后,何国涛曾在HP、Aruba等公司从事Opencall、Voice XML、无线网关等产品的研究和开发,HP多媒体服务器的语音识别技术,就是他所在的小组研发的。

而也就是在Aurba,何国涛结识了蒲瑶。后者本科毕业于中国科技大学,是科大讯飞CEO刘庆峰同系校友,同样也是从事语音识别相关产品的研发。

2008年,科大讯飞上市,一度垄断国内语音识别市场的半壁江山。但那时的语音识别创业领域,还是一片待开发的处女地。后来被苹果收购的Siri也成立没有多久,而何国涛却动了创业的念头。

“我刚毕业时,根本还没有人会说自己是学人工智能相关的。因为那意味着失业。”何国涛说。“也有很多人质疑,总是说这个方向不对,那个技术不好。而我们就决定,自己出来,在这个领域做一些事情。”

何国涛和蒲瑶最终还是决定,在语音识别领域做下去。“创业,我认为一是要有技术壁垒,二就是要有能够赚钱的市场。我在惠普接触了客户需求,也懂得应用,我认为,语音识别仍然是最具前途的领域之一,而当时,其他人要进入这块领域,也并非容易。”为了解决核心算法,何国涛还“挖”来了自己的师弟——IBM Almaden研究中心的李全忠博士。后者一直从事数据库及云计算研究,还获得过IBM发明成就奖。

于是,普强信息最初的创始团队形成了。何国涛担任CEO,负责公司运营;李全忠博士任CTO,负责核心算法的研究;蒲瑶(普强信息VP)负责产品。2009年,普强信息在美国加州硅谷成立,并获得了EDA之父黄炎松博士的100万美元A轮投资。第二年,普强信息设立了中国运营公司,在硅谷和中关村都设有技术研发中心。2013年,普强获得戈壁领投500万美元B轮投资,2016年获得四维图新领投的近亿人民币的C轮融资。

目前,普强研发团队占公司人员的80%左右,其中博士、硕士以上学历者超过30%。

  挑战语音大数据分析

何国涛对公司的发展方向有长期的思考。“小公司做事要专注,现在普强一百多人只做垂直领域,包括车载和电话信道语音识别,而且要做到最好。其实这很简单,就集中优势力量做好一个小事情。”

普强在自身的语音识别和语义分析技术基础上,就锁定了两个方向:语音大数据和车载。

当前,由于智能设备的大量应用,大量数据,尤其是呼叫中心等领域,大部分数据都是语音和图像等非结构化数据。普强力图提供语音大数据分析能力,为企业解决非结构化数据分析的需求。

2010年,普强面向呼叫中心推出了“千语语音识别引擎系统”和“千语千寻语音分析系统”。

据介绍,普强已经为金融、电信、保险等多个行业,提供了准确度较高的电话信道的ASR(语音识别)引擎。针对呼叫中心座席与客户的对话,千语千寻系统的算法和模型接入后,能将不同地域口音的来电转换成文字,还能根据不同的系统用户需求,标注出关键用词。

李全忠博士向黑智(VR-2014)介绍,“千语语音识别引擎系统”开发应用了深度神经网络技术,通过语音切分技术和对识别结果的算法,进行语速探测、情绪识别等,以及对讲话对象、时间边界等进行分割,不仅提高了语音识别结果,也可以辅助企业进一步挖掘和分析海量语音数据。

当坐席和客户通话时,接入了普强的千语千寻系统模型,不仅能将不同方言的来电转换成文字,还能根据不同的系统用户需求,标注出关键用词,并针对其进行统计和专业化分析,挖掘客户需求;对客户流失进行预警分析,挖掘客户投诉原因,进行干预;或者替代人工质检。何国涛举例说,例如某保险公司就有2万左右名保险销售,管理者需要知道如何提高销售成功率,客户投诉的是什么问题,客户购买保险服务的原因是什么等。“千寻”把这些问题都细化成文字,以解决客户的需求,提升公司工作效率和营销转化率。

进行语音大数据分析,最基本的一点就是数据。李全忠表示,普强在呼叫中心电话线领域积累了十多年的数据,对电话语音数据处理和标注的积累,在业内是首屈一指的。

而对语音分析,最关键的比拼点,则是“快”和“准”。“准确度和识别速度往往要平衡,在不损失精度的前提下,我们可以做到最快,系统的全文识别率可达85%以上,关键词识别率达95%以上。”李全忠博士说。他表示,千语千寻语音分析系统目前中文语音分析速度,是国内最快的。它拥有的文本分析引擎和索引处理技术,能够实现分析操作在秒级以内完成,而业内多数语音公司的产品则要半小时甚至更久,千语千寻比之,要高出一个数量级。

除识别引擎及分析系统外,与国内外厂商相比,普强的优势是拥有多年呼叫中心工作经验的专家们所组成的专业咨询团队,以及完整的识别设备和工具,来协助客户进行定制化应用服务,以保障企业最高的投资报酬率。

而据何国涛对黑智(VR-2014)透露,目前普强在业界公开招投标的项目中,始终保持着最高的中标率。

转载请注明出处。


1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。

相关文章
  • 普强信息何国涛:瞄准语音大数据分析和车载,做语音识别就是要快、准和专注

    普强信息何国涛:瞄准语音大数据分析和车载,做语音识别就是要快、准