阿里巴巴开源语音识别模型 DFSMN

2018-06-08 10:38:47来源:雷锋网 热度:
阿里巴巴达摩院机器智能技术实验室语音识别团队于即日推出了新一代语音识别模型——DFSMN,与此同时团队已将这一模型开源。
 
 
阿里巴巴达摩院机器智能技术实验室此前在刷新 SQuAD 成绩、KITTI 成绩上有着突出表现。此次开源事件,也是阿里巴巴达摩院机器智能技术实验室首次凭借开发事件获得加分。
 
据了解,这一模型正是在国际声学会议 ICASSP 2018 上做 oral 报告的 DFSMN(深度前馈序列记忆网络)。DFSMN 使用基于 BLSTM 的统计参数语音合成系统作为基线系统,采用广泛使用的跳跃连接技术,在执行反向传播算法时,梯度可以绕过非线性变换。而官方介绍,对比目前业界使用最为广泛的 LSTM 模型,训练速度更快、识别准确率更高。采用全新 DFSMN 模型的智能音响或智能家居设备,相比前代技术深度学习训练速度提到了 3 倍,语音识别速度提高了 2 倍。
 
据悉,DFSMN 模型不仅被谷歌等国外巨头在论文中重点引用,更基于世界最大的免费语音识别数据库 LibriSpeech,将全球语音识别准确率纪录提高至 96.04%。
 
去年 12 月,上海地铁与阿里云携手推出了上海地铁语音售票机。而刚刚结束的云栖大会武汉峰会上,装有 DFSMN 语音识别模型的「AI 收银员」在与真人店员的 PK 中,在嘈杂环境下准确识别了用户的语音点单,在短短 49 秒内点了 34 杯咖啡。这两者都是针对在嘈杂真实环境中的语音识别应用。
 
正如阿里巴巴达摩院机器智能技术研究院的语音交互智能实验室首席科学家鄢志杰此前接受采访时所表示的一样,「今天语音交互技术的真实水平,与用户的期待、业界的 PR 存在明显的鸿沟。」而本次阿里巴巴开源 DFSMN,也是希望能让更多的开发者群体在语音识别领域能发光发热。

责任编辑:胡辉

为您推荐

三网融合诱人 相关企业尝鲜

内容摘要:“三网融合的总体方案国务院已批准公布,试点方案已报国务院,试点城市工作已经启动。根据国务院公布的三网融合方案,电信部门将和广电部门展开深度合作,内容方面由广电部门监管。“三网融合的总体方案国务院已批准公布,试点方案已报国务院,试点城市工作已经启动。将会同广电总局等部门抓好试点示范,推动‘双向进入’……推进三网融合取得实质性进展。”6月29日,工信部部长李毅中在其内部争先创优座谈会讲话中透露说。而对于试点城市有哪些,工信部尚未公布。对此,记者采访得知,不少相关企业已经闻风而动,快速应变。用遥控器打电话,在手机上看电视何为三网融合?能给

阿里巴巴云战略:推自有手机 控制云管端

7月4日消息,阿里巴巴在无线领域的布局有多大?目前,阿里浏览器、阿里输入法、手机旺旺、搜索、邮件服务器等应用已研发完成,它们将与手机支付宝,一起打包装进天宇定制手机,而该手机的操作系统也由阿里巴巴自主研发。此外,在云端,分布式系统、弹性计算平台等基础设施的搭建也有条不紊。在电子商务的另一边,一个由阿里巴巴控制的“云、管、端”时代将要来临。2009年9月,阿里巴巴云计算公司“阿里云”在猜忌与争议中成立。团队班底来自原阿里软件、阿里巴巴集团研发院等底层技术团队。阿里巴巴集团首席架构师、阿里集团研发院院长王坚负责“阿里云”的研发工作。在当时,涉足云计算的企业主要是国外IT巨头,布局的公司有微软、Go

阿里巴巴云手机系统“启动”

28日,在上海举行的2011第九届ChinaJoy展会上,阿里巴巴“淘女郎”在展示阿里云手机。成立三年之后,阿里巴巴集团旗下最神秘的阿里云计算有限公司终于揭开了面纱。昨日,阿里云公司在北京推出独立研发的阿里云操作系统——阿里云OS,同时发布搭载该系统的首款智能手机——天语云智能手机W700,该手机采用英伟达Tegra2硬件平台,售价2680元,将于月底发售。这意味着,阿里巴巴将成为中国首家推出手机操作系统的互联网企业。据阿里巴巴介绍,阿里云OS不仅是国内首家以云计算技术为核心的、同时支持数据中心和手机终端的互联网平台,也是云计算技术在国内移动终端的首次大规模产品化应用。“不会介入手机生产”“我

云计算和移动互联网会三大创业机会

10月24日,首届中国互联网无线化峰会暨阿里云开发者大会在杭州举办,阿里云在会上发布了包括云开发者平台、阿里云邮箱、云搜索等产品,阿里巴巴集团首席战略官曾明,阿里巴巴集团首席架构师王坚,易观国际董事长兼CEO于扬等业内人士在大会上做了主题演讲。对于未来围绕着云计算和移动互联网会,于扬总结认为有三大创业机会:第一个,从应用的角度来讲,有三个层次上的应用,第一个应用是技术性的,比如我们看到一些安全的防护,第二个是工具类,比如说省电的工具,第三类是社交类的,如果找到一种能够让用户花更多的感情和时间的产品,意味着创业者不用惧怕大企业,你越早进入这个市场,用户在上面花的时间越多,那用户的黏性越强,这时候