12月19日,据《福布斯》网站报道,今年5月,当人工智能专家吴恩达(Andrew Ng)加盟百度,担任这家公司首席科学家时,他对自己的团队可能开发的项目守口如瓶。但是。现在,百度突然向外界揭晓了这位前谷歌研究员,也是斯坦福大学教授的最新研究成果。吴恩达及10名百度研究团队表示,他们已经开发出一种更为准确的语音识别系统——百度Deep Speech。
吴恩达表示,以语音识别系统准确率标准衡量,百度Deep Speech系统要强于谷歌和苹果等对手的系统。
百度Deep Speech在噪音环境中(比如汽车内和人群之中)的表现更为突出。吴恩达表示,在噪音环境下,测试显示百度Deep Speech系统的出错率要比谷歌Speech API,Wit.AI,微软Bing Speech以及苹果Dictation低10%多。
跟其他语音识别系统一样,百度Deep Speech基于一种被称之为“深度学习”(Deep Learning)的人工智能技术。该软件能够以一种非常原始形式来模仿人大脑新皮层中的神经活动,因此深度学习系统就能够识别出数字形式的声音、图片等数据。在接受采访时,吴恩达表示,第一代深度学习语言识别正接近极限。
百度研究团队收集了9600个人长达7000小时语音,这些语音大多发生在安静的环境下。然后该团队使用了一种被称之为“叠加”( superposition )的物理学原理,在这些语音样本中增加了15类噪音。这样,他们将这项语音样本扩容成一个10万小时的数据。然后,百度研究人员让系统在噪音中识别语音。
吴恩达表示,百度Deep Speech要比目前的语音识别系统简单的多,他们使用了一系列模块,这些模块能够分析音素和其他语音元素。通常情况下,音素的识别需要人工设计模块,并依靠一种名为“隐马尔可夫模型”(Hidden Markov Models)统计概率系统,该系统需要大量的人力来调整模型噪音和语音变异。百度系统则使用深度学习算法来替代这些模型,这一算法基于递归神经网络,因此使得语音识别系统变得更为简单。
不过,真正让这项系统正常运行的背后“功臣”是百度超强新计算机系统,该系统使用很多图像处理器GPU。GPU通常应用在笔记本电脑中用于加速图形处理。而在百度语音识别系统中,GPU可以让语音识别模型运行速度变得更快、更“经济”,该系统运行速度大概是吴恩达在斯坦福大学和谷歌期间所开发系统运行速度的40倍。
吴恩达表示:“百度语音识别系统要比其他基于GPU系统更为全面。我们正进入Speech 2.0时代,现在才是个开始。”
吴恩达并未透露百度何时会将这项语音识别技术整合到百度搜索和其他服务中。不过,外界猜测百度可能会在明年某个时候将Deep Speech技术整合到百度Cool Box小服务中。
产品特点
百度首席科学家吴恩达以及由Awni Hannun领导的10人研究团队在美国康奈尔大学图书馆网站上称,他们已经开发出了一种新的,更为准确的语音识别系统Deep Speech,该系统使用了端对端的深度学习技术。语音识别是一项越来越重要的技术,已经被用于苹果语音助手Siri、语音输入功能Dictation以及谷歌语音搜索中。
吴恩达称,按照衡量语音识别系统出错率的标准基准,Deep Speech的准确性已经超越了苹果、谷歌的语音识别系统。特别是在汽车或人群等噪音环境下,Deep Speech的表现更为出色。
吴恩达称,测试显示,在噪音环境下,Deep Speech语音识别出错率比谷歌语音识别引擎(Google Speech API)、语音识别公司wit.ai、微软必应语音搜索、苹果Dictation的语音系统低10%以上。
嘈杂环境下识别率超谷歌苹果
美国康奈尔大学开放存取资源库arXiv.org发布的一篇文章称,吴恩达携10人组成的百度研发团队研究出一种更准确的语音识别技术。吴恩达说,Deep Speech深度学习语音识别技术能够超越苹果和谷歌相关的语音识别技术。
资料图
吴恩达指出,Deep Speech的优势是,在类似人群或是车内嘈杂的环境下能够实现将近81%的辨识准确率,优于谷歌的语音识别引擎(Google API)、Wit.AI、微软Bing语音搜索、苹果语音服务等。美国卡内基梅隆大学的助理研究员Ian Lane对此表示,百度的该项成果有望打破语音识别的发展格局。
据悉,百度人工智能研发团队共收集了超过9600人、长达7000多小时的语音数据资料,大多数是安静环境中的语音,但百度公司还加入了15种嘈杂环境中的语音样本,如在饭馆、汽车、地铁等。
在被问到何时会将Deep Speech语音识别系统应用到其他研究和服务中时,吴恩达显得很谨慎,并未透露过多,但从言辞中可知,这一天不会太远。据猜测,Deep Speech很有可能应用于百度Cool Box产品中。