为什么我们疯狂的AI仍然录制语音

2016-04-14 16:40:55来源：1号机器人网热度:

　　
在这样一个时代，技术公司经常推出新形式的日常奇迹，但是，引发出了一个问题——录制语音，那看似仍然是长期未解决的问题。当然，记录语音文件已经由Nuance的Dragon软件所征服。我们的电话和智能家庭设备可以理解相当复杂的命令，这都是归因于自我教学神经网络和其他21世纪的奇迹。然而，提供大量实际人类对话的准确改编任务，仍然超越了当今最先进的软件的能力范围。
　　
当解决了广泛的规模问题后，可能打开大量的口述历史档案，并且对于新闻记者是一个改变世界的福音，释放了宝贵的生命时光。它可以使YouTube进行文本搜索。对于研究者来说，这是一个幻想成真了。它将迎来一个反乌托邦的时代，提供了一种新的文本形式。研究人员说，功能性转录只是一个时间的问题，虽然时间到底是多久仍然是一个悬而未决的问题。
　　
提供大量实际人类对话的准确改编任务，仍然超越了当今最先进的软件的能力范围。“我们曾经开玩笑说，这取决于你是问谁：语音识别要么解决要么就是不可能的，”Gerald Friedland（杰拉尔德）说，他是国际计算机科学研究所音频和多媒体实验室的主任，隶属于UC berkeley，“真理是介于两者之间的”。
　　
“如果你使得人类在电话谈话中，误差率在4%左右，”黄学东说，他是微软的资深科学家，他的牛津项目为声音识别企业家提供了一个萌芽的公共API。“如果你把所有的系统整合在一起，IBM、谷歌、微软和所有最好的组合在一起，令人惊讶的是错误率大约是8%。”黄学东也估计商业系统可能更接近12%。黄学东承认：“这可能并不像人类一样好，但这是最好的语言社区。”
　　
然而，黄学东很快补充说，相比于五年前的该领域，这个错误率是惊人的。并且他开始声音激动。黄学东已研究语音识别问题长达30多年，第一次是80年代在北京的清华大学，“我们梦想着能够和电脑进行自然的谈话，”黄学东说，叙述了一系列的神奇的时刻”，在美国卡耐基-梅隆大学的创业实验室，并于1995年开始在微软。
　　
“十年前，它可能是80 %的错误率！”他说。“从80%下降到10%，现在我们已经接近8%了！如果我们能保持这种趋势，接下来的两到三年内，一些奇迹将会发生。预测总是很难，但基于历史数据，跟踪社区的记录，而不是一个人的…在未来的两到三年内，我认为我们在录制语音方面将接近人类。”
　　
Carl Case（卡尔），一个在百度机器学习小组的研究科学家，致力于研发中国网络巨头自己的语音识别系统——深度语言。
　　
“在深度语言方面，我们已经取得了一些非常好的进展，通过使用国家最先进的英语和汉语语音系统，”Carl Case（卡尔）说。“但我仍然认为还有很多工作要去做，从一些人类的语境，到实际上的工作，如你和我能有这次谈话一样，从来没有比较嘈杂的电话占线，没有相互理解的问题。”Carl Case（卡尔）说，Carl Case（卡尔）和公司的员工一直在有风的汽车上，测试他们的技术，有音乐演奏的背景，以及在其他不利条件下。像在微软的同事，他们已经向公众发布了他们的API，部分以科学的名义，部分是因为更多的用户在使用。
　　
自由职业者和其他想要改编的人以及付不起1$/分钟传统的打字员。然而，没有一个是完美的。一个程序员Andy Baio（安迪）写了一个脚本，给一个一分钟的音频采访，上传作品到亚马逊的Mechanical Turk（土耳其机器人），并且把抄录的这些工作外包给别人。它可以节省金钱，但这没有准备和清理的意义。对于一个更容易操作的用户界面，也有共享经济时代网站transcribeme，由一部分手工写手记录。
　　
一个免费的语音转录工具同样内置于谷歌Docs（文档）。你可以在你的电脑上播放录制的音频，并且这个系统将尽其最大的努力去使合适的文本出现在谷歌Docs（文档）中。对于五次电话访谈，通过Skype记录，只有一个主题讲得慢而清楚，甚至登记者可以转录文本，只有大约15%的错误率。那些只想录制播客的可能运气更好。但是目前可用的转录技术不能处理多个声音或背景混乱，可靠的软件像Nuance的Dragon ，能够自然说话，在训练单声时，变得相当有能力。David Byron（大卫拜伦），他是语音技术杂志编辑部主任，建议一个“parroting”技术：听一个实时的记录，重复文本给麦克风，然后软件进行转录。它可以节省一些打字，但仍然会有最尴尬的采访时刻。
　　
尚未合并为市售的转录，像谷歌的声音被称为“两方分类”，一个独立的扬声器系统可以确定谁正在说话，以及他们正在说什么。一个人正在清楚地说一件事，但是2人正在进行生动的论述是另一回事。这是已经解决的一个问题了，至少是部分解决，从科学研究的含义上说。有一个专门研究它的领域，“丰富的转录。”在2012年，电子和电子研究所专门总结了一系列的问题：他们的杂志、音频转录、语音和语言处理，到“丰富转录新的领域”。
　　
Gerald Friedland（杰拉尔德弗里德兰），他是非营利组织ICSI分类项目的领导者，该小组参加了国家标准和技术研究所试验。主持会议记录项目到测试小组的记录情况，ICSI证实一旦麦克风不再靠近手机提供的范围之内，错误率就会在15%到100%之间变动。
　　
他说，“如果你把你的手机放在桌上，想记录所说的一切，并且尝试去转录它，你就会有许多这些问题：新的词汇，酒会噪音问题、经常噪音、重复说话、以及人类永远无法说的完美。它有咳嗽和笑声，可能有窃窃私语。它成为非常多样化。”两个声音的频谱，往往造成在分类研究混沌，在儿童和老人中测试失败。
　　
现在，Gerald Friedland（杰拉尔德弗里德兰）说，大多数转录初创企业似乎主要是谷歌许可的API。但这个领域和市场对每一个层面的创新都是开放的，随着项目的成功，各种不可预见的社会变革即将到来。

下一篇：人工智能客服出现传统企业“三大转型”将至上一篇：日本拟成立人工智能伦理课题恳谈会

责任编辑：高娟

语音 AI

为您推荐

三网融合是运营商语音业务的“终结者”

日前，国务院总理温家宝主持召开国务院常务会议，决定加快推进电信网、广播电视网和互联网三网融合。会议提出，“2010年至2012年重点开展广电和电信业务双向进入试点，探索形成保障三网融合规范有序开展的政策体系和体制机制。2013年至2015年，总结推广试点经验，全面实现三网融合发展，基本形成适度竞争的网络产业格局，基本建立适应三网融合的体制机制和职责清晰、协调顺畅、决策科学、管理高效的新型监管体系。”从以上叙述中可知，三网融合的基本步骤可分为两步：第一步是广电网络与电信网络的融合，接着就是融合后的两网向互联网靠拢。电信和广电的融合其实已经有很多案例可以参考了，如上海电信与上海文广合作的IPTV业

三网融合与三网被融合

自国务院发布三网融合新政之后，引发业界的广泛讨论，尤其是“谁在主导三网融合”的问题更是吸引了社会各界巨大的关注，似乎是谁主导谁就能占到便宜。广电vs电信：半斤八两另一方面，“玩”政策向来都是广电方面的长项。国务院三网融合政策出台前后，央视一系列报道，打的电信运营商满地找牙，从而使广电行业在制定政策的过程中处于优势地位。但广电业的问题在于现代企业制度不完善、政企不分，尤其是广电运营商多年来“诸侯割据”，缺乏统一的运营主体是最大缺陷。而三大电信运营商则在企业制度，市场竞争能力等方面优势突出。有统计数据显示，电信行业的收入约为广电行业的5.6倍。总体来说，双方半斤八两，有优势也有劣势。"被融合”势不

4G加速高清语音时代来临

对于运营商而言，高品质的网络质量是吸引用户，增加业务收入的重要保障，而对于用户而言，网络质量的好坏也决定了其在网的忠诚度。网络技术发展到今天，无论是运营商、企业还是个人用户，对网络品质的关注从未间断过。随着移动互联网时代的加速来临，业界对无线网络的品质变得尤为关注。目前，3G正在全球高速发展，目前全球有超过525家实现3G商用的运营商，并有超过70家运营商处于部署阶段。3G网络与业务的进一步完善，使越来越多的用户开始从2G向3G迁移。截至2010年4月，全球约有7.5亿3G用户，预计到2012年将增至16亿左右。然而，在用户快速增长的同时，3G网络所存在的带宽不足缺陷开始暴露无遗。尤其是用户在

唐山检察院引进视高视频会议

人民检察院作为国家的法律监督机关，主要任务是依法履行监督职能，保证国家法律的统一和正确实施。近年来，随着我国经济的迅速发展，各类经济、刑事案件变的复杂和多元化，检察院的职能在我国占着举足轻重的地位。唐山检察院于08年就采购了先进的电脑设备，用于日常办公，同事对内部也加强了信息化的培训。2010年，检察院信息部门经过详细周密，谨慎的调查和筛选，选择了视高（Seegle）协同视频会议系统进行和各个区检察院的视频会议以及日常的办公沟通。视高（Seegle）协同视频会议系统是知名厂商视高科技的旗舰产品，采用目前国际视讯领域领先的标准协议，具有全球领先的语音系统、强大的数据传输功能、清晰流畅的音视频效果

{{i.label}}

为什么我们疯狂的AI仍然录制语音

为您推荐