咨询热线:033-61672790

对话微软黄学东:语音语言技术是镶在AI皇冠上的明珠-在线

【 图片来源:Microsoft Research Blog 所有者:Microsoft Research Blog 】按:上一次你和你的电脑展开有意义的对话,并且感受到它能确实地解读你,是什么时候呢?如果微软公司技术研究员、微软公司的语言语音小组组组长黄学东博士做了的话,那么你也将可以做。并且,如果他以往的研究知道超过了他所说的水平的话,这一天到来临有可能要比你想要的还要慢。黄学东教授在播客中讲了讲他作为微软公司首席语音技术科学家的工作内容,告诉他我们一些关于语言语音技术近期的里程碑的内部细节,以及解释掌控语音辨识、翻译成、交流是如何让机器在从“感官人工智能”到“理解人工智能”改变的路上回头得很远,和语音辨识、翻译成、交流有多相似确实的人类智能。全文编译器如下。主持人:黄学东,青睐回到微软公司的播客节目。黄学东:谢谢。主持人:您是语言语音小组的微软公司技术研究人员,还领导着微软公司的口语工作,我们几天后不会展开深入探讨。但首先,作为微软公司的首席语音科学家,再行非常简单告诉他一下我们您做到了些什么,以及为什么要做到这些事情。让您每天睡觉的动力是什么?黄学东:好的,我们现在所做到的事是保证我们有最差的语音语言技术能被应用于到更加甚广的领域。我们之所以有个团队去做到这件事,是因为我实在这不仅是人类最大自然的交流方式,而且这还是我们现在面临的最艰苦的人工智能挑战。这就是我们所做到的,在我们的云端 Azure Services 上尝试去确实突破,去获取出众的服务,以及保证我们能让微软公司的客户和微软公司之外的客户失望。如果你想框定整个事情,主要有三个方面。

对话微软黄学东:语音语言技术是镶在AI皇冠上的明珠

首先,我们有能力去驱动语音辨识的准确性,去驱动制备工作的自然性,当你把英语翻译成汉语、法语,德语的时候,去保证翻译成质量是准确的。因此,有很多科学家在背后去确认这些精确性、自然性以及潜在因素,他们是世界一流的科学家。这是第一方面。第二方面是,我们不仅获取技术,我们还在Azure上获取服务。从Office 到Windows,Cortana,它们都倚赖着同一个云服务。不仅如此,我们还有边缘设备,像我们的语音设备SDK。因此,我们想保证在边缘设备和在云端上的语音技术都是以现代的方式展开的。这是第二方面:平台是现代化的。第三方面是对消费者展现出爱意,因为我们在全球享有普遍的客户。我们想要让消费者高兴,想要让我们的消费者体验到他们用于的语音翻译成是一流的。这就是我实质上主要做到的三件事:提高AI 的能力,使我们在云端和在边缘设备上的平台现代化,爱人我们的顾客。主持人:嗯。您有很多团队在这些小组中工作,来解决问题我们称作“支柱”的问题。黄学东:是的,我们在世界各地都有团队。并且,这些团队的多样性是很难以置信的,因为我们在尝试解决语言障碍。因此,我们在中国有团队,在德国、以色列、印度、美国某种程度也有。我们的工作遍及全球,尝试着去应付这些语言挑战。主持人:我想要再行提到您的话为我们的今天的谈话做到打算。您说道过,“语音语言技术是嵌在 AI皇冠上的明珠。”为我们解释一下吧。黄学东:嗯,好的。我们可以从人类演化的范畴来思维。在某个时期,语言问世了,它加快了人类演化。如果你看看这个星球上的所有动物,就像你告诉的,有很多动物跑完的比人类慢,视力比人类好······主持人:它们的牙齿也很锐利。黄学东:特别是在是在晚上。主持人:它们很强劲。黄学东:是的。它们听得的比人类近,嗅觉比人类灵敏,但是,只有人类享有语言。我们需要很好的去的组织,需要用科幻小说的术语去叙述,需要自我的组织,需要写一部宪法。如果你看见人类的这些方面,你就不会告诉,是语音和语言将我们和其他动物区别进的。对人工智能来说,语音语言技术需要驱动人工智能演化,就像它驱动人类演化那样。这就是为什么它是嵌在人工智能的皇冠上的明珠。而且它还是柔软的那颗,无法毁坏。主持人:是的。有一个关于这个话题的哲学性辩论,但它引向了一些有意思的问题。如果您在机器语言上获得了相当大的顺利,那么,这些机器不会是什么呢?黄学东:让我们充分发挥一点想象力。在某些时候,我们说道计算机需要解读三百种语言,还需要流利地交流和对话。我还没有遇上需要说道三百种语言的人。而且,机器不仅需要流利地交流和对话,还需要领会、解读、自学、假设以及需要在所有科目上都能获得博士学位。这种科学知识的提供、假设多达了任何人的个人能力。当这一刻来临的时候,你可以想象人工智能将不会有多聪慧。主持人:这是您想象出来的东西吗?黄学东:是的。主持人:我们想那样吗?黄学东:是的。我实在这个世界需要沦为一个更佳的世界。几个星期前我在日本,带着装有在移动设备上的微软公司翻译器,我需要和会说道中文或英语的日本人交流。微软公司翻译器需要说道一些我会说道的语言,当我在日本的时候,它能协助我显得更加有效率。主持人:我完全同意。一想起这个机器,我就有点惧怕。“我们不是第一个,不是最后一个,我们只是下一个······”黄学东:但是,这个智能有两个层次。第一个层次是感官智能,它能看,能听得,能闻。紧接着高层次的是理解智能。我们今天所获得的人工智168体育能的突破,大多是在感官层面,例如语音辨识、语音合成、计算机视觉。但是在高级推理小说和科学知识提供这些理解能力上,人工智能距离人类的水平还较远。并且,最令其我深感鼓舞的是翻译器,它是一种介于感官智能和理解智能的物体。事实上,我们需要在感官智能的基础上取得成功,并扩展到理解智能,这是一个非常漫长的过程。我不告诉我们什么时候需要抵达那个里程碑。但是那一天正在附近了,这只是时间问题。它有可能还要五十年,但我指出这是不会再次发生的。主持人:因为我们现在谈及一些里程碑,我们将在另一个博客中详尽辩论。但现在,首先我想总结一下,在 Rick Rashid 正式成立的组织以及创建第一个语音小组的时候,您早已在微软公司研究院工作一段时间了。根据MSR的传说,这个小组的目标就是“让语音沦为主流”,请求详细的告诉他我们一些关于在 MSR 的语音历史。这个研究是怎么从早期的“不主流”“勇于冒险,共创未来”到今天完全经常出现在微软公司的每一个产品中的?黄学东:在我重新加入微软公司之前,我曾是匹兹堡 CMU 的教员。当时,RickRashid 是那里的教授,我是一名初级教员。我的语音研究主要是在 CMU 积极开展的。后来,微软公司和我认识,他们想创建一个语音研究的小组。因此,在1993年的第一天,在新的年休假之后,我移往了。我从匹兹堡飞到西雅图,开始了这段未曾转变的旅程。这就是微软公司语音研究的开始。我们是开始为开发者带给语音技术的研究团队。主持人:嗯。黄学东:所以…主持人:所以仍然只是尤其深奥的纯理论研究黄学东:对,不是尤其深奥的纯理论研究。我们从 CMU 取得技术许可,我们就是这样开始的。我们非常感谢 CMU 在这个领域上的开创性研究。我们是一个研究团队,但是我们在Windows ’95上公布了了第一个语音API, SAPI。作为一个研究团队,我们非常自豪,因为一般来说的研究只是展开尤其深奥的纯理论研究。我们不仅展开尤其深奥的纯理论研究,之后挑战无限大,之后提升理解的精确性,我们还和 Windows 合作,把那些科技带来 Windows 开发者。SAPI 是业界第一个基于 Windows 的语音API。主持人:哇!黄学东:这是一个非常漫长的过程。紧接着,我带着我的团队最后离开了研究部门,重新加入了产品小组。我带着团队到了产品小组,与我同行的还有一个杰出的微软公司语音研究小组。这是我在微软公司27年的精彩经历。2004年,在我们公布了语音服务器之后,我暂停了语音研究,我开始做到很多事情,还包括启动研究产卵。当 Satya Nadella 运营 Bing 时,我曾兼任建筑师。然后,当 Harry 管理研究和技术小组时,我协助产卵了一系列人工智能项目,像GPU集群,Project Philly,深度自学工具包 CNTK 等基础项目。大约三年前,我幸运地回去管理了一个融合语音和语言的小组。基本上,我们需要统合所有语音和翻译成的资源。这就是我的故事,我的经历,精彩的 27 年。主持人:现在语音语言研究是在哪里展开?黄学东:就像我说道的,我们在研究小组和产品小组之间往返移动了很多次。现在,我们在云端和人工智能小组,这是一个产品小组。我们是这些云服务的一部分,并且,我们获取了整个公司和整个行业范畴的语音翻译成服务。我们也有展开语音和对话研究,他们运营的像个研究小组。黄学东:他们都是那个小组的研究人员。就像 Rick 说道过的,科研成果转化成是一个必须各部门因应的事。在我们微软公司这儿,只不过早已某种程度是各部门紧密配合,我们就是整个一体的。主持人:在研究模式上依然具备前瞻性….黄学东:既有前瞻性,又有充份依据。我们必需脚踏实地地获取服务,从基础设施到服务成本,还必需车站在低处去展望未来,去定义人们必须的、想的解决问题方法是什么,即使现在这个解决问题方法有可能不不存在,或者他们有可能还不告诉是什么。主持人:我们来明确谈谈您前面提到到的研究里程碑。这应当不会很有意思。您刚牵涉到到三个领域:对话式语音辨识,机器翻译以及对话解说。让我们从对话式语音辨识开始。在 2016 年,您领导了一个团队,在抄写对话语音上超过了能和人类相媲美的历史水平。跟我们说道说道吧,它是什么的一部分,是如何产生的?黄学东:在 2016 年,我们在普遍用于互相交换机会话mRNA任务上超过了和人类相媲美的水平。这项任务在研究界和工业界有可能早已用于了十多年。在 2017 年,我们新的定义了这个里程碑,要超过需要和人类相媲美的水平。在mRNA任务上,我们不是非常简单地和一个人在竞争,我们是和一群人竞争。我想要说道,2017 年是一个历史性的时刻。将微软公司语音堆栈和各个小组的人展开较为,mRNA完全相同任务,它的展现出高于这四个小组的总和。当我用它挑战我们的研究小组的时候,没有人想起它有可能落败。但是令人吃惊的是,在将近两年的时间里,在我们有了信念,有了资源,有了焦点的时候,奇迹知道再次发生了。这对团队,对科学,对技术堆栈来说都是一个动人的时刻。这是我个人职业生涯中第一个需要超过与人类相媲美的水平的里程碑。主持人:我都想要对该领域做到一翻研究了,您刚所说的这些都十分有意思:在两年的时间里,没有人坚信这件事需要构建,然而你们最后顺利做了。还请求您给我们共享更加多关于如何让语音mRNA构建人类水平的技术层面的东西。黄学东:所以,如果你查阅一下语音研究历史,就能找到很多被后人重复用于的突破性成果都是由我们这个语音研究组所首创的。以翻译成为事例,在上世纪 70 年代早期,即便是在语音研究领域,语音辨识更加多用于的还是传统 AI ,例如基于规则的方法、专家系统等。IBM Watson 在研究中首创地明确提出统计资料语音识别方法,用于隐马尔可夫模型以及统计资料语言模型来构建语音辨识,很大地推展了该领域的发展。因而,这也沦为了语音领域的一个高光时刻。之后,来自 IBM 同一个语言研究组的研究者们又将语音辨识所使用的这一思路应用于到了翻译成中,确实实质性地提升了翻译成质量,再度重写了翻译成历史!隐马尔可夫模型之后,语音辨识领域开始用于深度自学方法,即神经语音辨识。于是,翻译成再行一次吸取神经语音辨识的思路,开始用于神经机器翻译的方法,让整个翻译成领域再次取得进展。所以你可以借此看见其他领域利用语音领域研究者所首创的技术的镜像。实质上,语音领域的研究者们仍然在引导着技术的开创性进展,比如众所周知的由 DARPA 创立的系统基础测试,就使用了十分严苛的评估标准,确实转变了科学以及工程的评估方式。主持人:是的。黄学东:实质上,语音语言技术能给语音以外的其他领域带给了很多可以普遍利用的经验。所以,我们仍然在训练研究团队来处置艰难的问题,这样显然,我们的同一个研究团队构建了这些历史性的里程碑也就不足为奇了。主持人:好,接下来让我们来闲谈一下另一个里程碑:在 WMT-2017 的中英文新闻自动翻译成任务中构建人类水平。回应,我在专访节目中还跟 Arul Menezes闲谈了下关于这项成果的所有事情。但是我还是理解一下您怎样看来以及否指出现在机器翻译可以相媲美传统的人工翻译成?以及为什么这项成果对于超越人类和文化间的壁垒而言,是一项最重要的突破性进展?黄学东:我的研究团队所获得第二个构建人类水平的突破性成果某种程度也令人兴奋。正如我所说的,交换台不会话语音(Switchboard Conversational Speech)mRNA就是一个最出色的里程碑。但是它显然还正处于十分低级的水平,即还正处于感官 AI 的水平。而翻译成则是一项介于感官 AI 和理解 AI 之间的任务。当然,翻译成是一项可玩性更大的任务,并且也没有人坚信我们需要获得这样的成果。因而我们成立了一个目标:在五年时间内,想到我们能否让机器在句子级别的基础翻译成任务上构建人类水平。所以我也十分想要在这里向大家共享这个故事。当人类如你如我在翻译成时,我们不会去看句子的整个段落,从而也有更为宽阔的上下文语境,我们的翻译成工作也做到得更佳。相对于普遍意义上的翻译成,WMT 中对人类的水平有一些容许,因为它针对的只是句子级别的新闻翻译成。主持人:嗯哼。黄学东:所以,我们所积极开展的只不过是一个普遍对外开放的研究——公共基准测试。即便是这样,我们指出也有可能必须花费五年时间。所以,我们使用了某种程度的原则:基于交换台语音辨识mRNA的成果来积极开展研究。但是实质上这一次,我们对这一步有所打破。由于任务是将中文翻译成英文,因此我们与微软公司在北京的研究团队一起合作。所以,横跨了太平洋的多个微软公司亚洲研究院团队在数个日日夜夜中进行了合作研究。令人吃惊的是,这群研究者给所有人都带给了惊艳:我们在将近一年的时间内就构建了这一目标,让机器翻译构建了人类水平,这也是机器所构建的历史最佳翻译成水平,同时,经我们的科学家评估,其比专业翻译人员在同一任务上的展现出更为出众。这一刻,我们知道建构出有了奇迹。我为该研究团队以及这次合作深感无比自豪。主持人:我十分想要聊聊您的另一个十分有意思的研究成果,也就是您称为 COQA 的解说数据挑战赛。显而易见,我们在谈论的就是需要跟我们展开解说对话的计算机。请求你给我们共享一下,这一在语音辨识技术中最像人类或者说可玩性仅次于的任务,接下来要积极开展的工作是什么?黄学东:COQA 解说数据挑战赛是由斯坦福大学的研究者首创的一项比赛,它甚至与理解 AI 要更加相似些,它实质上是一个涵括了不会话、对话以及涉及任务的机器读者任务。假设你在读者某段文字,然后让读者挑战准确问一连串涉及的问题。例如,如果你读者了一段关于比尔盖茨的文字,第一个问题有可能就是:“谁是微软公司的创立者?”第二个问题则不会与第一个问题涉及:“此人在创办微软公司时年龄多大?”之后的问题有可能是:“当此人卸任时,他年龄多大?”所以,上下文的相关性比非常简单的机器读者要无以,因为必须你问一连串与等价上下文涉及的问题。因此,对于这一近期突破,我必需重点向我们在北京研究实验室的同事们传达我的赞许。同时,我们也仍然在利用分享的资源和基础设置来联合积极开展这一开创性的研究工作,这知道有趣。同时,我们已完成这项难以置信的会话解说挑战赛的灵活度以及速度,都让我印象时刻。其中的主力研究者现在都在北京,而他们也将在协助微软公司再行一次在这项甚广不受注目的 AI 任务上首度构建人类水平中,扮演着最重要的支柱性的角色。没有人不会坚信有人需要在如此较短的时间内在这项传统的QA 任务上构建人类水平。因此,虽然我们一开始预期这一目标要花费2年时间,但是最后,我们再行一次超越了历史记录。主持人:我们早已闲谈了一些关于你正在积极开展的研究工作以及如何积极开展的偏技术的话题。对于如何积极开展涉及研究工作,您否还有任何需要用来攻下这一QA 任务的其他方法论或技术?黄学东:微软公司在 AI 领域早已累积了长约三十年的研究经验,不是吗?微软公司在北京的自然语言研究组在过去的二十年时间里,也仍然在研究 QA 任务,他们在文化底蕴了很多先天优势的同时,也累积了很多经验。同时,我们基本上用于深度自学和迁入自学来已完成QA任务。因此,我们的顺利是基于整个研究领域的成果所取得的。主持人:嗯嗯。黄学东:就比如说谷歌公布了一项尤其篮的技术——BERT......主持人:BERT是字母简写吗?黄学东:是字母简写,它是一项映射技术。我们的研究成果就以这项技术为基础展开了延伸,因此我们的顺利也有它的一份功劳。这也是我们需要获得机器翻译构建人类水平这一突破的方法。主持人:嗯嗯。黄学东:这只不过也是整个研究领域的一个光碟。我刚所谈及的微软公司亚洲研究院团队与其在美国的团队之间的合作,实质上堪称整个工业界之间合作的一个范例。

对话微软黄学东:语音语言技术是镶在AI皇冠上的明珠

(音乐听见)主持人:您在节目中向我们所刻画的这些都十分令人兴奋:在一切事情朝着准确的方向发展之后,一旦顺利,我们就必需去解决问题那些有可能朝着错误方向发展的事情。黄学东:是的。主持人:您期望计算机需要听得、听到、说出、翻译成、问问题以及最基本地,与人类展开交流。那否有什么事情让您深感情绪?黄学东:几乎有。实质上我的忧虑就是,未来某一天人类不会过于过依赖 AI。然而 AI 总有一天都不有可能显得完美无缺,它不会具有一系列独有的种族主义。因此,我十分忧虑这一人类无法察觉的影响。主持人:赞成。黄学东:所以如何应付这一忧虑,实质上是我们必须意识到并且急需解决问题的普遍的社会议题。因为正如我们每个人一样,一旦我们享有一个我们倚赖的助手,我们就几乎需要了解到这个助手给我们带给的影响有多大:他不会转变你的议程,甚至转变你的观点。而 AI 惜有一天将不会扮演着与助手完全相同的角色。我现在最忧虑的要数怎样解决问题 AI 的种族主义问题。主持人:是的。黄学东:如果一切顺利发展,这个问题终将确实沦为我们必需应付的最重要议题。我们必须学会解决问题这一问题。而现在我们还不告诉怎么解决问题,则是因为我们现在还到时那一步。主持人:因此,您在创立这些需要说出、聆听以及聊天的工具时,就将“设计思维(design thinking)”引进其中,因为最重要的事情之一就是人类有能力将人类的品质转嫁到非人类的事物中......黄学东:我不能坚信,现在研究 AI 的研究者们有充足的责任感。好消息就是,我们现在还到时那一步,不是吗?所以,我们还有时间来联合应付这一挑战,并相信 AI 将不会确实朝着服务人类而不是吞噬人类的方向发展。这就是现在仅次于的忧虑......主持人:是的。黄学东:......这也是现在让我维持精神状态的问题。但是我短期的忧虑只不过是:AI 还过于好!最少现在还过于好!主持人:明白。黄学东:正如比尔盖茨经常提及的,人们总是低估我们在短期内能做到的事,而高估这些事情所带给的将来影响。在这件事情上,我们无法高估它的将来影响。主持人:是的。黄学东:将来的里程碑。主持人:理解。接下来是故事时间。黄学东:嗯,不俗!主持人:能共享下您个人涉及的故事吗?是什么让您对特别是在是语音、语言技术领域的研究感兴趣?以及能否共享下您重新加入微软公司的历程?黄学东:好的。我毕业于北京的清华大学,当时我的第一台电脑是Apple2。你有可能也理解,中文语言很难被输出到电脑上,所以输出过程十分繁复。因此,我深信构建语音辨识十分有适当。当时,我作为清华一名研究生,梦想只不过就是在 AI 领域做到研究。同时,当时清华研究生院的 AI......主持人:是的。黄学东:......不可思议地汇集了一大批教授和科教人员,他们都具有将来的看法,并为我们建构了开拓性的探寻和实验环境。因此,我在这里接着已完成了我的博士学位。自1982年被清华入学后,我就重新加入了一个博士项目,并且仍然专门从事语音辨识的研究工作。让人类确实与机器交流显得更加非常简单这个梦想,在我的世界未曾消失。迄今为止,我在语音辨识上的研究生涯已走到了30 多个春秋。即便在微软公司工作的一段短期时间里,我曾停止语音方面的研究工作,但我专门从事的研究工作依旧是与语音涉及的。所以,我打心底里指出,这是我与语音研究之间的一个十分动人的故事。而我个人也在这个过程中进账了很多有意思的经历。正如我刚提及,当我在清华大学上学的时候,用中文在计算机上点字还是一件十在线分无以的事情,所以在清华博士毕业后,我去了苏格兰的爱丁堡大学进修......主持人:理解。黄学东:......并在那里取得了博士学位。而当我第一次转入爱丁堡大学的时候,我个人十分伤痛的地方只不过在于——我告诉了英式英语的不存在,因为中国大部分的英语都是美式英语。然而由于英式英语并非我的母语,所以这对我来说,并不是很“吃香”。并且我听得苏格兰教授授课......主持人:噢,天哪!黄学东:......知道十分具备挑战性。不过非常感谢 BBC 开动了字幕。主持人:有意思。黄学东:所以我是通过看 BBC 确实学会了苏格兰英语。并且我必需要提及的是,现在微软公司的PPT可以用于自动表明字幕的技术了。那段个人的伤痛经历对于微软公司的PPT 团队在研发这款产品中所考虑到的各种功能来说十分具备吸引力,同时它对于我个人而言也是一种很好的奖励。主持人:是的。黄学东:我十分快乐需要看见我研究出来的技术成果需要协助更好将前往苏格兰大学就学的人。主持人:您也告诉,Arul之前也聊过关于 PPT .....黄学东:是的。主持人:....的服务,同时他也提及那些有听力障碍的人。黄学东:嗯嗯。主持人:现在您彰显了它一个全新的(意义).....黄学东:它更为普遍.....主持人:几乎是!黄学东:......由于语言障碍仍然都会不存在,并非每个人都能流利地用语言表达。我宴请过很多旅游者,基本上每年我都会宴请清华大学的MBA 学生,他们也都在自学英语,但是他们听得英语和用于英语交流的能力基本上无法跟这里的当地人比起。所以,在PPT 软件中获取字幕功能,需要协助他们所有人......主持人:是的。黄学东:.......更佳地自学和解读英语。所以,即便没翻译成,这个功能的应用于场景也十分普遍。这就是一个非常简单的事实:我们有了字幕,就能强化交流。主持人:显然。之前我们聊过了有所不同的语言和方言,但是我们还没确实探究过语言的口音问题。我是说道,即便在美国,即便你是美国当地人,你去美国的各个地方都有可能遇上不少无法解读的时候,这都是由于各个地方的口音都大不相同。黄学东:这也是为什么我的苏格兰英语不会变为一个好故事!同时我期望我还能保有些苏格兰口音。主持人:我听得出来您的苏格兰口音!在每期博客的最后,我都会对邀嘉宾最后说道一句话 。由于您在人类语音技术领域专门从事研究,这句话非常适合对您说道。现在,您有机会向有可能正在致力于让计算机构建与人类聊天和交流的听众说道任何您想要说道的话。他们应当从哪里应从研究?黄学东:研究语音和语言!它是确实嵌在 AI 皇冠上的明珠。在我看来,AI 领域再行没比语音和语言研究极具挑战性的任务。特别是在是当你想让感官 AI 发展到理解 AI 时,更是如此。让机器取得推理小说、理解能力,并通过读者、交流取得科学知识,乃是提高人类生活、提升人类生产效率,让这个世界仍然有语言、交流和解读障碍的最基本的研究领域。主持人:感谢您今天应邀参与我们的博客节目。您给我们共享的东西知道十分棒。黄学东:我的荣幸。(公众号:)录:本文编译器自Microsoft Research Blog版权文章,予以许可禁令刊登。下文闻刊登须知。