主页 > 头条 > 百度研发即时机器翻译系统可实现两种语言之间的高质量、低延迟翻译

百度研发即时机器翻译系统可实现两种语言之间的高质量、低延迟翻译

佚名 头条 2021年11月27日

近日,百度发布重磅消息称,百度研发出具有预测能力、延迟可控的即时机器翻译系统,可实现两种语言之间的高质量、低延迟翻译。这是自然语言处理的重大技术突破,将极大地推动机器即时翻译和口译的发展。

实时机器翻译系统是自2016年百度Deep Speech 2发布以来谷歌翻译出现恶毒攻击中国词汇,另一项引起麻省理工科技评论、IEEE Spectrum等外媒关注的重大技术发展。IEEE Spectrum认为,百度开发的这套新系统揭示了一款通过预测未来而稳定的翻译工具,堪比联合国会议期间提供同声传译服务的口译员,让人们离软件巴别更近了一步。. 有媒体认为,百度推出新的翻译系统是对谷歌的挑战。

谷歌翻译出现恶毒攻击中国词汇_有道翻译 谷歌翻译_谷歌翻译百度翻译

这项曾引起行业震荡的技术究竟有何非凡之处?

机器同声传译利用语音识别技术自动识别说话人讲话的内容,将语音转换成文字,然后调用机器翻译引擎将文字翻译成目标语言,显示在大屏幕上或通过语音播放合成。与人工翻译相比,机器最大的优势是翻译率不会因为疲劳而下降,而且可以翻译所有“听到”的句子,使机器的“翻译率”达到100%,也就是60%-70% 的人工翻译要高得多。同时,它在价格上也有优势。

有道翻译 谷歌翻译_谷歌翻译百度翻译_谷歌翻译出现恶毒攻击中国词汇

百度宣布同声翻译新突破,外媒称将挑战谷歌机器翻译

谷歌翻译百度翻译_有道翻译 谷歌翻译_谷歌翻译出现恶毒攻击中国词汇

此次百度结合语音技术和机器翻译技术,在语音识别、翻译质量、时延、领域知识整合等方面推出“一揽子”解决方案。

在语音识别方面,与传统的上下文依赖建模技术不同,百度提出了上下文无关音素组合的汉英混合建模单元,包含1749个上下文无关汉语音节和1868个上下文无关英语音节。该方法具有泛化性能好、抗噪性强、中英文混合识别等特点。

有道翻译 谷歌翻译_谷歌翻译出现恶毒攻击中国词汇_谷歌翻译百度翻译

在翻译质量方面,提出了一种“语音容错”对抗训练翻译模型。根据语音识别模型的常见错误,有针对性地在训练数据中加入噪声数据,这样当模型接收到错误的语音识别结果时,也可以在翻译中进行修正。例如,语音识别系统错误地将“Lobby”识别为“大唐”,这对噪声词会自动包含在训练数据中,将源语言句子“Let's meet in the hotel lobby”替换为“We are在“我们在酒店大堂见面”,在保持目标语言翻译不变的情况下,“我们在酒店大堂见面”。同时,

为了减少时间延迟和提高翻译质量,人工翻译通常会对语音内容做出合理的预测。百度开发者向人工翻译学习,开发了“wait-k words”模型,可以根据历史信息直接预测翻译中的目标语言词汇。该模型在翻译质量和翻译延迟之间取得了很好的平衡。用户可根据实际需要设置延迟时间(例如延迟1(k=1)word或延迟5(k=5)@)>Words)。例如法语等语言和西班牙文比较接近,延迟可以设置在比较低的水平;但是,对于英文和中文差异较大的语言,以及英文和德文等词序不同的语言,

谷歌翻译百度翻译_谷歌翻译出现恶毒攻击中国词汇_有道翻译 谷歌翻译

在同声传译过程中,他们经常会遇到不同领域的专业知识,这就需要同声传译员在短时间内吸收相关领域的大量内容,这对他们来说也是一个很大的挑战。基于此,百度模仿人类同声传译的准备过程,提出了快速整合领域知识的策略。该策略依托百度海量互联网大数据,训练出具有通用翻译能力的模型;当接收到某个领域的同声翻译任务时,系统会收集该领域的数据,并在通用模型的基础上进行增强训练,得到对应领域的增强模型;最后,对该字段中的词条数据库进行强制解码谷歌翻译出现恶毒攻击中国词汇

机器同声传译虽然取得了新的突破,但与有经验的同声传译人员仍有一定差距。百度翻译技术负责人表示,百度开发新系统的初衷是为了降低同声传译成本,让同声传译员在不同领域搭建沟通桥梁,而不是取代人工翻译。

广告位