由Siri引发的语音技术市场探讨:三大种类及诸多挑战面面观

2012-02-01 16:20:00来源:我爱方案网 热度:

引言:苹果iPhone 4S的Siri功能推出,可谓是引起了人们对于智能语音技术的极大关注。其实,语音技术非常复杂,表象繁多,本刊通过采访国内科大讯飞、国笔等专家对目前的语音市场进行梳理和探讨。

一、不仅仅是语音,还是人工智能

尽管苹果“教主”乔布斯离开了我们,尽管iPhone 5没有入人们期望的那样出现,但是iPhone 4S的推出仍然成功吸引了苹果粉丝和业界的所有关注。根据美国电话电报公司(AT&T)透露,iPhone 4S在发布12小时之内就接到了20万份订单,而其中最引入注目的一大新功能,就是被称为Siri的语音助手功能。

10月4日上午,苹果全球产品副总裁Phil Schiller与负责iOS软件的副总裁Scott Forstall在新品发布会上,隆重介绍了Siri。

什么是Siri?

Forstall在现场进行了演示,他拿起iPhone 4S,对手机问道:“今天天气如何?”屏幕上立刻显示出今天的天气状况。他又接着问,我用带伞吗?Siri马上回答,今天会下雨。随后,他还用这款应用演示了搜索和设置闹钟提、预约等功能。

Siri跟普通的语音搜索不一样,它能明白你所说的,了解你的意思,甚至还能回答你的问题。那感觉就像真正拥有私人助理似的,而且是一位善解人意的私人助理。无论你用何种方式提问,它都能以人的思维去思考和反应,而不是以预设的程序答非所问。

Siri能为你做的不仅仅是提供答案,它还可以亲自替你完成一些基本的事情。比如,你可以吩咐Siri发短信给你父亲、提醒你预约牙医、帮你查找到达目的 地的路线,不用担心Siri不够聪明,因为它能够思考完成这些事情需要运行哪些应用程序,还能明白你要打电话的准确对象。

Siri还包括传闻中的“语音转文字”的功能,你只需按下麦克风,把你想发送的内容说出来,Siri就可以将你所说的内容转换成文字,并发送出去。除了发 送短信外,Siri还集成到一些第三方应用,这样,你只需动动嘴皮子,就能更新Facebook、发送Twitter消息或者即时聊天。

如果你认为Siri只是一个简单的声音控制软件,而你的Android手机上的语音助手或NOKIA语音提示也可做到这点,那你就错了。

我们不妨探究一下Siri的血统,这家最近刚被苹果收购的公司,直接发端于美国军方的CALO(Cognitive Assistant that Learns and Organizes)项目,这也是史上最大的人工智能项目,汇聚了全球人工智能方面的顶尖专家。

你如果看过好莱坞大导演斯皮尔伯格的电影《A I》,相信会对人工智能有一定了解,通过人工智能技术,机器人可以把“对话、自然语言理解、视觉、演说、机器学习、制定计划、理性思考、服务代表全部融合 到一起”。Siri的技术正源自人工智能,而不是简单的搜索和语音识别。它能够自主分析用户发出的口语指令,并给出确切的回应和指导,完全不需要用户预选 学习使用方法。

在国外某科技博客录制的一段视频中,评测人员对Siri提出了许多含义模糊或有歧义的问题。比如:“附近有没有什么浪漫的法国餐厅?”,比如:“天空为何 是蓝色的?”比如“钢琴上有多少个八度?”对人类而言,这些句子再平常不过了,但要让机器去理解这些变化多端的棘手词汇,尤其是“浪漫”这种形容词,那就 极端困难了,然而这些问题 Siri都可以回答。

你甚至还可以对Siri表白,对它说:“我爱你!”它的回答也很妙:“希望你不会对其它手机也这么说。”

该评测人员随后在博客中写到:“Android系统的Voice Actions也是一项伟大的技术,但说真的,它和Siri不是同一个层面的产品。Siri非常酷,与之相比Voice Actions虽说确实让我们省去了打字输入、触摸操作的工序,但操作太复杂,只有那些Geek会使用它。然而,妈妈们会选择Siri。”

二、语音技术的三大种类

除了人工智能,Siri的核心功能仍是基于语音识别的语音技术,其语音引擎来自Nuance,这家公司在全球手机输入法上处于垄断地位。

这一技术并非革 命性的变革,早在计算机发明之前,自动语音识别的设想就已经被提上了议事日程,早期的声码器可被视作语音识别及合成的雏形。而1920年代生产的“Radio Rex”玩具狗可能是最早的语音识别器,当这只狗的名字被呼唤的时候,它能够从底座上弹出来。

近二十年来,语音识别技术取得显著进步,开始逐渐从实验室走向市场。据了解,许多大公司如IBM、苹果、微软、Google、AT&T和NTT等 早在多年前都对语音识别系统的实用化研究投以巨资。目前主流的语音技术方案包括IBM公司推出的Via Voice和Dragon System公司的Naturally Speaking, ,Nuance公司的Nuance Voice Platform语音平台,Microsoft的Whisper,Sun的VoiceTone,以及科大讯飞的口讯等。

责任编辑:51DTV编辑部

为您推荐

新Apple TV:无Siri但系统整合度更高

昨晚与第三代iPad一同登场的,还有第三代AppleTV,它的表现如何呢?是否如乔布斯所言,“破解了密码”?新AppleTV的价格和上代产品一样,同为99美元,硬件变化最明显的是处理器,从A4升级到A5。尽管所采用的A5是一颗单核处理器,但性能上确实有所提升,新AppleTV有能力播放最高1080p的高清视频,而上一代产品最高只能支持播放720p的视频。和硬件相比,新AppleTV最大的变化还在系统上,新系统版本号为5.0,和旧系统相比,添加了以下新特性:与iTunes相连,可播放iTunes上的电影和电视剧,电影已经有《惊天战神》、《Hugo》、《MoneyBall》等,电视剧有《Let&r