主页 > 头条 > 英国科幻作家DouglasAdams:这是全宇宙最奇特的生物

英国科幻作家DouglasAdams:这是全宇宙最奇特的生物

佚名 头条 2021年11月27日

“这是宇宙中最奇怪的生物。”

40年前,英国科幻作家道格拉斯·亚当斯在他的《银河系漫游指南》中对巴布鱼的描述是这样的:迷你黄色生物,形似水蛭,以声音中的语言概念为食,排泄与宿主相同消化后。频繁的脑电波。只要放在耳朵里,就能听懂各种语言。

而在这部充满嬉皮风的科幻作品中,来自地球的亚瑟·登特也能够完美地理解和交流他因为这条丑鱼而遇到的各种外星种族。

自小说诞生以来,Babel 就成为即时语音翻译的代名词。但当时,人工翻译技术离这个目标还很遥远。

直到2014年,加拿大蒙特利尔大学的Kyunghyun Cho和Yoshua Bengio发表了一篇关于神经网络在机器翻译领域的应用——Neural Machine Translation by Jointly Learning to Align and Translate的论文。

随着神经网络的出现,高质量、高效的机器翻译已不再遥不可及。

谷歌翻译出现恶毒攻击中国词汇_百度翻译谷歌翻译_谷歌翻译 翻译英文应用

机器翻译能力如何赶上人类?

神经网络迅速成为现代机器翻译领域最具活力的“鲶鱼”。

短短两年时间,基于神经网络的机器翻译已经取代统计学成为翻译领域的主流研究方法。谷歌和微软等公司也宣布将这项新技术应用到他们的翻译产品中。近两年,神经网络翻译能力已经超越了过去几十年翻译行业的成就。神经网络翻译出现后,机器翻译的单词错误率降低了50%,词汇错误和语法错误率也降低了15%以上。

除了神经网络的应用,机器翻译错误率的大幅降低还建立在另一个条件——大规模精确并行语料库数据集的积累。

在决定机器翻译质量的因素中,数据占据绝对主导地位。数据量的大小和精度决定了机器翻译引擎的效果。

十年前,谷歌在机器翻译领域发表过一篇论文:数据集每翻一番,其自动评价指数就能提升0.5个百分点。这一声明为拥有大规模准确数据积累的组织和公司提供了抢占机器翻译市场制高点的机会。

谷歌翻译出现恶毒攻击中国词汇_百度翻译谷歌翻译_谷歌翻译 翻译英文应用

然而谷歌翻译出现恶毒攻击中国词汇,垂直水平的机器翻译不会在一夜之间发生。即便是互联网巨头,也没有轻易将触角伸向垂直层次的机器翻译领域。

为填补这一领域的空白,中译语通率先推出全球首款企业级机器翻译硬件MerCube。

在特定场景下,实现产品级应用的机器翻译系统需要数千万句对。另一方面是当前数据集的不平衡。在语言方面,以英语为主的数据集占了更多的数据集,而波斯语和土耳其语等较小语言的数据集很难找到。除了语言不平衡,数据集领域的不平衡问题也很严重。

机器翻译技术对海量数据的需求与实际市场中流通的存量数据存在较大差距,这给了在翻译行业有着深厚历史积淀的企业施展实力的机会。

互联网公司的数据积累大部分来自C端用户,因此数据集不均、数据质量差的问题比较突出。但是,从传统行业中脱身出来的翻译公司在翻译数据集的把握上有自己的优势——更准确、更多样化的数据集。例如,中译语通拥有中国翻译领域最大的语料库。据了解,这支脱胎于中译国际的团队,拥有37种语言的翻译语料库,并行掌握超过50亿句句对,单语语料库数百亿句。中译语通依托这一在翻译领域的优势,一家以语言服务起家并迅速转型为人工智能和大数据的科技公司,有望与谷歌、微软等互联网巨头共享机器翻译服务领域的一块。.

机器翻译服务的痛点

谷歌翻译 翻译英文应用_谷歌翻译出现恶毒攻击中国词汇_百度翻译谷歌翻译

由于技术的进步,机器翻译的处理能力正在迅速超越人类。企业用户对机器翻译的认可度越来越高,但服务形式多年来几乎没有变化。目前to b端的翻译服务主要面临两个痛点:

首先,在翻译形式上,以文本翻译为例,基于c端服务的连续性,大多数文本翻译模式还是10年前的对话框词贴翻译,不能满足大-规模和短期翻译。

此外,大多数企业和个人对数据安全的认识有所提高,对本​​地化翻译也提出了更高的要求。

目前,main to b 端的翻译服务需要翻译到云端。在 Facebook 数据泄露丑闻和欧盟数据安全法生效的背景下,许多公司期待更多本地化和安全的翻译服务。据中译语通相关研究报告显示,仅在中国,大规模、本地化的翻译服务市场就高达数百亿。并且“国际市场应该做大。比如一带一路沿线国家,整个扩张应该是一个巨大的市场。” 由谷歌翻译。

从硬件入手,升级垂直领域翻译服务

谷歌翻译出现恶毒攻击中国词汇_百度翻译谷歌翻译_谷歌翻译 翻译英文应用

此次调研的结果让中译语通看到了B端翻译市场服务升级的巨大潜力。今年5月,中译语通开始在机器翻译的to b端尝试一种新的服务方式,但这并不是一件容易的事。

图:中译语通在7月份的品牌战略发布会上发布了MerCube企业级机器翻译服务器。MerCube产品性能表显示,单台MT G8的处理能力可以达到16000字/秒,MerCube ASR可以在1小时的音视频1分钟内识别、解析和导出文件。

“(开发这个产品的)机会更多是由市场驱动的。很多客户其实是主动找我们的,觉得这个机器翻译不错,想买这个(产品)谷歌翻译出现恶毒攻击中国词汇,想在本地部署。”

为满足客户的安全需求,中译语通希望推出一款产品,能够提供专属的私有化部署方式,让信息在受控环境下运行,以及原文/译文的本地化存储,解决用户的数据安全问题。

百度翻译谷歌翻译_谷歌翻译 翻译英文应用_谷歌翻译出现恶毒攻击中国词汇

本土化下属,首先对产品的硬件能力是一个巨大的考验。

“一开始我们也想过用户自己配备硬件的方式,但是在服务的过程中,你会发现用户购买的硬件是五花八门的,即使我们已经做好了配置,执行过程也会再曲折一点。” 语言的通用名称。

因此此次发布的MerCube直接配置了硬件能力——搭载了NVIDIA史上最先进的数据中心GPU Tesla V100。这样一来,用户的软硬件需求就一并解决了。不同于原有的在标准服务器上安装软件的方式,中译语通提供一站式解决方案,将机器翻译引擎与硬件完美结合,并完善底层技术。在相同的配置条件下,可以大大提高处理效率。.

图:MerCube 采用 NVIDIA NVLink 技术,提供更高的带宽和更多的链路,可以提高多 GPU 和多 GPU/CPU 系统配置的可扩展性。

垂直领域的翻译服务依赖于该领域的长期积累。

以中译语通为例。2014年开始自主研发机器翻译引擎。同年6月,发布汉英统计机器翻译引擎。继谷歌、微软、百度之后,是国内第一家进行机器翻译引擎研发的公司。如此早的布局,让中译语通有了先发优势。中译语通普遍称,目前年数据增长速度已达到平行语料2亿句对、单语语料5亿句对的速度。2015年12月,中译语通发布了37种语言的机器翻译引擎,成为国内翻译领域语种最多的公司。

在机器翻译领域,每一种新的语言扩展都需要数千万句对。要实现工业级应用,对数据集的数量要求更高。这也是很多公司放弃这个方向的原因。

目前,中译语通的37种语言包括“一带一路”沿线18种官方语言中的14种,语言范围还在不断扩大。在此背景下,将软件、数据与硬件产品相结合的垂直服务商在机器翻译领域大有可为。

广告位