跨越专业翻译的语言之墙百度翻译的技术攀登 - 网络成瘾症

TUhjnbcbe - 2024/10/2 16:11:00

作为一个科技从业者，阅读AI顶会的最新论文、浏览国内外创新的最新动向，是我工作的重要部分。平时接触的开发者、科学家、企业研究人员等，工作生活中也涉及大量专业阅读。

于是乎，我就会经常听到这样的抱怨：

PDF格式的论文，很多翻译软件需要手动复制粘贴，效率还不如直接查字典；

不动脑子按段落甚至句子直译，信达雅一个都没有，机翻完我还要花时间二次review；

海外开发社区的技术文档专业词汇太多，翻译得不准，好几天的代码都白写了……

这可能是AI技术里非常容易让人迷惑的地方。近几年随着AI技术快速进步，机器翻译水平也大幅提升，结果一遇到外文文献、外刊投稿、办公文档、商业报告、海外网站技术文档之类的专业翻译需求，很多产品还是不能满足。

这些问题说明，总体可读可懂，满足出国旅游、购物娱乐等日常沟通的场景，只是机器翻译的基本功能。进一步的市场需求，是深度专业内容的跨语言交流，让商业、科研、技术等专业信息可以实现无缝对接。

跨越这堵语言之墙，也成为一场NLP领域的全球竞赛。一直深耕机器翻译的百度翻译团队，从来没有停止过攀登的脚步。

我们从机器翻译的新技术动向说起，聊聊百度给机器翻译带来的新可能。

机器翻译的技术攀登：百度引领NMT革新

跨越语言之墙还需要哪些技术突破？想要回答这个问题，有必要先回答：机器翻译今天发展到哪一步了。

过去几十年间，人们一直在探索如何使得机器翻译达到人类的翻译水平，翻译方法不断迭代。基于规则的机器翻译，依靠人工编纂的双语词典和专家总结的规则进行翻译；基于实例的机器翻译，从双语对照的实例库中选择与原文相似度高的实例，通过模仿和修改进行翻译；基于统计的机器翻译，对翻译过程进行数学建模，并从大量的训练数据中自动学习翻译知识。

变革发生在年，通过循环神经网络（RNN）来对语言向量进行编码解码，并且使用长短期记忆网络（LSTM）来增强长句翻译能力的神经机器翻译（NMT），为机器翻译领域带来新的研发范式。百度、谷歌、微软等一批NLP领域的优等生推进深度学习在机器翻译领域的研发和应用，百度翻译在年发布了全球首个互联网NMT系统，领先谷歌1年多。现在，大家用翻译软件进行日常交流、旅游商务等活动，已经基本没有问题了。

而专业领域的翻译想要令人惊喜的进展，总的来说需要做到两件事：

一是技术突破。推动机器翻译不断接近专业翻译能力。头部厂商主要从几个方面努力：1.预训练大模型，例如文心、GPT-3、BERT；2.多语言统一建模和翻译；3.面向垂直领域的高精度翻译模型。其中，百度作为更早进入NMT时代的科技企业，就在机器翻译技术上取得了国际领先的成果。年，咨询机构Gartner在《HypeCycleforNaturalLanguageTechnologies》报告中，就将百度翻译列为神经网络机器翻译标杆机构。

二是产品设计。技术有所突破，还要通过成熟的产品设计和应用体验，让用户感知到专业机器翻译的价值。一些机器翻译产品可能技术很强，但由技术人员来主导产品设计，导致用户体验很糟糕。在这方面，具备互联网产品设计相关经验的厂商，自然能够更好地实现技术落地。比如百度翻译就打造了非常丰富的产品矩阵，支持PC端、移动端等各类终端设备，面向C端、B端的多种应用；支持文本、文档、图片、语音等多模态翻译，全方位满足各种翻译需求。百度翻译的产品优势，让普通用户可以低门槛、更便捷地用上专业机器翻译能力，目前日均响应的翻译请求已达千亿字符。

从这个角度来看，百度翻译是国内少有的，能够同时占据技术和产品两个机器翻译高地的科技企业。那么，百度翻译究竟是如何翻越专业翻译的语言之墙？

耸立的语言墙：机器翻译进入专业领域的三道门槛

你可能会问，机器翻译都搞了快七十年，怎么专业领域的语言之墙依旧没有被攻克？

专业信息、学术资源、商业文件等翻译需求，是一块巨大的商业蛋糕，同时也是从未被彻底解决的痛点。这是因为专业领域的翻译，存在“三高”的要求：内容安全要求高、翻译准确率要求高、翻译效率与体验要求高。

内容安全要求高：专业文档往往涉及到科研创新、商业往来等信息，翻译过程中需要上传到云端或软件服务商的服务器进行操作，一旦硬件来源或软件使用权受限，或者服务不稳定，都会给专业用户带来麻烦和风险。

翻译准确率要求高：信达雅，信（即翻译准确率）排在第一位，专业翻译中存在大量专业单词、复杂长句子，容易出现歧义，软件翻译失之毫厘，内容准确度就谬以千里。

翻译效率与体验要求高：翻译软件的效率、易用性，直接影响到用户体验。很多人可能有这样的经历，有的软件不支持整篇文档翻译，手动复制粘贴连分段都不准确，翻译效果难以直视；有的PDF文档翻译成word后，原本的排版被打乱，还需要自己手动调整……这些都给用户带来了额外的负担。

所以，我们就从安全可靠、效果、效率这三个方面，来评测一下百度翻译的解决思路。

首先，安全可靠。

作为一名知识内容生产者，文档承载的是我安身立命之本，所以，数据安全几乎是我是否使用一款翻译工具的首要考量因素。同理，论文数据之于科研工作者、商业报告之于企业从业者、技术文档之于工程人员，安全隐私都是至关重要的。

深度学习平台是每个神经网络机器翻译模型的底层技术框架，市面上相当一部分翻译厂商的底层技术框架仍然使用TensorFlow(美国谷歌)和PyTorch(美国脸书)为代表的海外框架。非国产自研，可能在未来遭遇无硬件可搭载和无框架使用的窘境。

比如在使用海外平台DeepL的过程中，我就会经常遇到加载缓慢、连接不上的问题。海外翻译软件往往需要上传到海外企业的服务器，比如DeepL上传的文档会被发送到美国的Adobe公司。

与之相比，国内翻译产品就不会遇到这个困扰。以百度翻译为例，产品基于全面自研的飞桨深度学习框架，同时采用多种措施来保障数据安全，获得ISO等多项国内外权威信息安全管理认证。存储前，会先进行安全的加密操作；数据传输中，采用安全传输层协议（TLS），保障保密性和数据完整性，并提供完备的密钥管理机制和加密措施；用户删除数据后，后台将同步删除相关内容，不会留存。总体来说，在可靠性和安全性上更有保障。

第二，翻译效果。

专业翻译最终要靠结果的“信、达、雅”说话。包括专业术语翻译是否准确，语序是否流畅连贯，一些特定文化背景的表达是否地道……

可以看到，百度翻译通过多个专业领域模型，有效增强翻译准确度。我们随机选取了《自然》杂志的一篇生物领域论文《Apan-cancer