本篇文章3649字,读完约9分钟

继3月14日在语音识别和机器阅读行业取得的“卓越”成绩之后,由微软亚洲研究院和雷德蒙研究院的研究人员组成的团队今天宣布,其开发的机器翻译系统为通用信息报道测试集newstest的中英测试集,与人工翻译水平相差无几 这是第一个能够以信息报道的翻译质量和精度并肩人工翻译的翻译系统。

“微软宣布其中英机器翻译水平可与人类相当”

newstest信息报道测试集由产业界和学术界伙伴共同开发,于去年秋天在wmt17大会上发表。 为了使翻译结果准确并达到人类翻译水平,微软的研究小组邀请双语语言顾问对微软的翻译结果和两个独立的人工翻译结果进行比较判断。

微软技术院士、负责微软语音、自然语言、机器翻译工作的黄学东表示,这是自然语言解决行业最具挑战性的任务的一大突破。 “在机器翻译方面达到和人类一样的水平是所有人的梦想,没想到能实现得这么快”他说:“消除语言障碍,帮助人们更好地表达信息是非常有意义的,值得我们多年来为此努力。”

“微软宣布其中英机器翻译水平可与人类相当”

微软技术院士黄学东

机器翻译是科学研究者几十年来研究的研究行业,曾经很多人认为机器翻译不可能达到人类的翻译水平。 虽然这次突破很有意义,但是研究者们警告说,这并不是人类完全处理了机器翻译的问题,只是证明我们接近了终极目标。 微软亚洲研究院副院长、自然语言计算组负责人周明表示,wmt17测试集中的翻译结果达到人类水平令人鼓舞,但在实时信息报道中测试系统等仍存在诸多课题。

“微软宣布其中英机器翻译水平可与人类相当”

微软机器翻译小组的研究经理arul menezes说,小组想说明的是,如果一个语言对(中英等)有更多的培训数据,并且测试集中含有常用的大众信息术语,则人工智能技术的加持

跨时区跨行业合作,四大技术为创新所加持

学术界和产业界的科研人员从事机器翻译研究多年,近两年来深度神经网络的采用实质性地突破了机器翻译的表现,翻译结果比以往的统计机器翻译结果自然流畅。 为了取得中英翻译里程碑的突破,来自微软亚洲研究院和雷德蒙研究院三个研究小组,进行了跨越中美时区、跨越研究行业的联合创新。

“微软宣布其中英机器翻译水平可与人类相当”

其中,微软亚洲研究院机器学习小组将他们最新的研究成果——对偶学习( dual learning )和推敲互联网( deliberation networks )应用于此次突破的机器翻译系统中。 微软亚洲研究院副院长、机器学习小组负责人刘铁岩介绍说:“这两种技术的研究灵感其实来自我们人类的做法。” 对偶学习利用了人工智能任务的天然对称性。 将其应用于机器翻译,可以达到通过自动校对学习的效果。 将训练集中的中文句子翻译成英语后,系统将对应的英语结果翻译成中文,然后与原中文句子进行比较,根据该比较结果学习有用的反馈新闻,修改机器翻译模型。 推敲互联网就像人们在写文案的时候推敲、修改的过程。 通过多次翻译,不断检查翻译结果,完全翻译,大大提高翻译质量。 对偶学习和推敲互联网的事业在nips、icml、aaai、ijcai等人工智能世界顶级会议上发表,同时被其他学者宣传到机器翻译以外的研究行业。

“微软宣布其中英机器翻译水平可与人类相当”

微软亚洲研究院副院长、机器学习小组负责人刘铁岩

周明领导的自然语言计算组多年来一直致力于克服机器翻译,是这个自然语言解决行业最具挑战性的研究任务。 周明说:“翻译没有唯一标准的答案,所以就像艺术一样。 这需要更多复杂的算法和系统。 ”。 自然语言计算组基于至今为止的研究积累,这次的系统模型中为了提高翻译的正确性,增加了共同训练和一贯性规范这两项新技术。 合作训练可以理解为用迭代的方法改进翻译系统,用中英翻译的句子对补充逆向翻译系统的训练数据集,同样的过程也可以逆向进行。 一致性规范可以从左到右进行翻译,也可以从右到左进行翻译,最终两个过程会产生一致的翻译结果。

“微软宣布其中英机器翻译水平可与人类相当”

微软亚洲研究院副院长、自然语言计算组负责人周明

两个研究小组将各自行业的积累和最新发现应用于这次的机器翻译系统,从不同的角度切入,可以说大大提高了翻译质量。 在项目合作的过程中,他们每周与雷德蒙总部的团队举行会议,确保技术无缝融合,系统能够更快地迭代。

“微软宣布其中英机器翻译水平可与人类相当”

没有“正确”的翻译结果

newstest信息报道测试套包括约2000个句子,由专家从网上报纸样本翻译。 微软团队对测试集进行了多次判断,每次判断后都随机选择了数百句翻译。 为了验证微软的机器翻译是否和人类翻译一样好,微软没有停留在测试集本身的要求上,而是从外部聘请了一组双语语言顾问,将微软的翻译结果与人工翻译进行了比较。

“微软宣布其中英机器翻译水平可与人类相当”

验证过程的多元性和复杂性从另一个侧面体现了机器翻译正确面对的多元性和复杂性。 在语音识别等其他人工智能任务中,很容易评价系统的表现是否与人类有很大差别。 由于理想的结果对人和机器来说完全一样,所以研究者也把这个任务称为模式识别任务。

“微软宣布其中英机器翻译水平可与人类相当”

但是,机器翻译是另一种类型的人工智能任务,即使两个专家对完全相同的句子也有些许不同的翻译,而且两个人都没有错。 那是因为表达相同句子的“正确”方法有好几种。 周明说:“这也意味着机器翻译比纯粹的模式识别任务要多得多,人们可能用不同的语言表达出完全相同的意思,但未必能正确评价哪个更好。”

“微软宣布其中英机器翻译水平可与人类相当”

复杂性使机器翻译成为一个极具挑战性的问题,但也是一个很有意义的问题。 刘铁岩认为,不知道机器翻译系统翻译什么语言、什么类型的文案,都能在“信、达、雅”等多个维度上达到专业译者的水平。 但是,他对技术进展感到乐观。 因为微软的研究小组和整个学术界每年都发明许多新技术、新模型和新算法。 “预计新技术的应用将使机器翻译的结果日益完整。 ”。

“微软宣布其中英机器翻译水平可与人类相当”

研究小组还表示,这项技术创新将应用于微软的商用多语言翻译系统产品,帮助其他语言和词汇更多更复杂,更专业的文案更准确,更地道的翻译。 此外,这些新技术还可以应用于机器翻译以外的行业,促使越来越多的人工智能技术和应用取得突破。

“微软宣布其中英机器翻译水平可与人类相当”

扩展浏览:

对偶学习( dual learning ) :对偶学习的发现,往往是现实中有意义、有实用价值的人工智能任务成对出现的,两个任务可以相互反馈,训练出更好的深度学习模式。 例如,在翻译行业,我很在意英语到中文的翻译,也很在意中文到英语的翻译。 语音行业既关心语音识别问题,也关心语音合成问题。 在图像行业中,图像识别和图像生成也成对出现。 另外,对话引擎、各搜索引擎等场景有对偶任务。

“微软宣布其中英机器翻译水平可与人类相当”

另一方面,由于有特殊的对偶结构,两个任务可以相互提供反馈新闻,这些反馈新闻可以用来训练深度学习模式。 也就是说,即使没有任何人为标记的数据,只要有对偶结构,也可以进行深入的学习。 另一方面,两个对偶任务可以相互作为对方的环境,由此不需要与现实环境的交互,两个对偶任务之间的交互可以生成更有效的反馈信号。 因此,通过运用对偶结构,有望处理深度学习和强化学习的瓶颈——训练数据来自哪里,与环境的互动是如何持续进行等问题。

“微软宣布其中英机器翻译水平可与人类相当”

论文地址: papers.nips.cc/paper/6469 -双重学习-机器转换. pdf

对偶无监督学习框架

推敲互联网( deliberation networks ) :我们认为“推敲”一词来源于人类浏览、写作和做其他任务时的行为习惯。 也就是说,任务完成后,不是马上结束,而是反复推敲。 微软亚洲研究院机器学习小组在机器学习中继承了这个过程。 推敲互联网有两个解码器,其中第一级解码器解码生成原始序列,第二级解码器在推敲过程中打磨和润色原始句子。 后者可以理解全球新闻,在机器翻译中,可以基于第一阶段生成的句子获得更好的翻译结果。

“微软宣布其中英机器翻译水平可与人类相当”

论文地址:微软/ EN-US /研究/发布/网络序列生成-一次通过

推敲互联网的解码过程

联合培训:这种方法被认为是从源语言到目标语言的翻译( source to target )学习和从目标语言到源语言的翻译( target to source )学习的组合。 中文和英文翻译都使用早期的并行数据进行训练,在每次训练重复的过程中,中文翻译系统将中文句子翻译成英文句子,获得新的句子对,该句子对还可以反过来补充到英文翻译系统的数据集中。 同样,这个过程也可以反过来进行。 这种双向融合不仅大大增加了两个系统的训练数据集,也大大提高了精度。

“微软宣布其中英机器翻译水平可与人类相当”

论文地址: arxiv/pdf/1803.00353.pdf

联合培训:从源语言到目标语言的翻译p(y|x )和从目标语言到源语言的翻译p(x|y )

一致性规范( agreement regularization ) :翻译结果可以从左到右顺序生成,也可以从右到左顺序生成。 此规范约束从左到右、从右到左的翻译结果。 如果这两个过程生成的翻译结果相同,则通常比结果不同的翻译更可靠。 该约束应用于神经机器翻译训练过程,鼓励系统基于这两个相反的过程生成一致的翻译结果。

“微软宣布其中英机器翻译水平可与人类相当”

规范:从左到右,从右到左

相关资料:

浏览研究论文:“机器翻译:在中英信息翻译方面已达到与人类相差无几的水平。”

试用这个系统

·微软翻译工具(微软翻译器)

微软发布了presentation translator演讲实时翻译字幕功能

·微软推出中文学习ai助手微软学习中心

来源:安莎通讯社

标题:“微软宣布其中英机器翻译水平可与人类相当”

地址:http://www.a0bm.com/new/19669.html