机器学习服务文本翻译能力升级,中文直译模型让译文表达更地道!
HMS Core机器学习服务文本翻译能力提供多种语言和多种应用场景的翻译服务,比如,在出国旅游的场景中,用户可以借助应用的语音翻译播报功能在打车、酒店入住等场景中无障碍沟通,也可以通过拍照翻译功能读懂餐厅菜单、路牌信息等。中文直译模型让文本翻译能力升级
当前主流的翻译模式大都以语料资源较为丰富的英文作为中间语言进行“桥接”翻译,但是经英文转移后翻译精度有所损失,且计算资源加倍执行效果降低。为了响应“一带一路”倡议,助力多元开放的全球化进程,国内出海应用语种翻译需求明确且要求系统本地化部署,对部分语言方向如中日、中俄等翻译质量要求较高,同时希望这些语言方向的翻译效果持续提升。
基于此,HMS Core机器学习服务对文本翻译能力进行升级,中日、德、法、俄四国语言的中文直译模型已在新版本中上线。相较于英文桥接翻译,中文直译模型可实现每秒并发300字符,端到端翻译速度小于150ms,翻译时延降低100%,翻译速度更快;针对中文特色词、俚语的翻译结果更地道,翻译质量更优。升级后的文本翻译能力可以满足中企出海或外企入华等对翻译要求更高场景的需求。
中文直译模型方案还参加了WMT2021国际机器翻译大赛子任务(Shared Task: Triangular MT: Using English to improve Russian-to-Chinese machine translation),并以显著的优势在该任务中获得了第一名。
中文直译和桥接翻译效果对比
法译中
【原文】Smart Launcher est un lanceur pour d’applications Android qui substitue l'interface classique de votre téléphone avec une autre qui est un peu plus simple et qui vous permettra d'accéder à toutes vos applications plus rapidement et plus confortablement.
【英文桥接】智能启动器是一款Android应用程序的启动器,它可以用一个简单一点的界面取代手机的经典界面,让你更快、更舒适地访问所有应用程序。
【中文直译】Smart Launcher是一款Android应用程序启动器,它用另一个更简单的界面取代了手机的经典界面,这将让您更快、更舒适地访问所有应用程序。
俄译中
【原文】О, да ладно, когда кто-то грубит тебе в коридоре является, без сомнений, самой меньшей из тех проблем, с которыми ты сталкиваешься в старших классах.
【英文桥接】哦,拜托,在走廊里有人对你无礼,毫无疑问,是你高中时面临的最不重要的问题。
【中文直译】哦,拜托,当有人在走廊里对你无礼无疑是你在高中时遇到的最小的问题。
德译中
【原文】Dieser von klassischen Laufschuhen inspirierte Herren-Sneaker zeichnet sich durch einen Materialmix aus Wildleder und verschiedenen Gewebearten aus und präsentiert sich in der Cruise 2020 Kollektion mit einer neuen Mid-Top-Silhouette, die genau bis zum Knöchel reicht.
【英文桥接】这款男式运动鞋的灵感来自经典跑鞋,采用麂皮和不同面料的混合,并采用全新的中帮轮廓,在2020年邮轮系列中一直延伸到脚踝。
【中文直译】这款男士运动鞋的灵感来自经典跑鞋,采用麂皮和不同面料的混合材质,在2020年邮轮系列中呈现出全新的中帮轮廓,完全延伸到脚踝。
中文直译模型的技术优势
中文直译模型借助了华为在机器翻译方面的最新研究成果,通过利用俄英、英中语料进行知识蒸馏,在少量或没有俄中语料的情况下,结合显式课程学习训练策略可以得到质量不错的俄中翻译模型,解决了英文桥接翻译系统的低资源以及冷启动的问题。
中文直译系统
技术点一:多语言增强策略(Multi-lingual Encoder Decoder Enhancement)
以俄中翻译任务为例,通过多语言模型,引入英中语料并结合知识蒸馏,加强译文侧decoder层的解码能力;引入俄英语料加强原文侧encoder层编码能力。从而极大程度上解决冷启动问题。
技术点二:课程学习策略(Explicit Curriculum Learning for Denoising)
在训练过程,结合显式的课程学习技巧,根据噪音量划分三阶段增量式训练方案。在第一阶段,使用全量的带噪语料进行训练,使得模型快速收敛;第二阶段使用双语对齐工具去噪后进行增量训练;第三阶段使用增强后的降噪双语数据进行增量训练,完成模型最终收敛。
技术点三:基于组合解码策略的数据增强方案(FTST For Data Augmentation)
FTST全称Forward Translation and Sampling Backward Translation,该技术在Backward Model中使用sampling的方式进行数据增强;在Forward Model中使用beam search的方式进行数据均衡。在对比实验中,取得了最好效果。
除了现有的四种语言以外,机器学习服务文本翻译能力计划今年会陆续上线日、法、德、俄、韩、葡、西、土、泰、阿拉伯、马来、意大利、波兰、荷兰、越南语共计15国的中文直译模型,基本覆盖中国、亚非拉、欧洲、南美洲等全球主要国家和地区。
了解更多详情>>
访问华为开发者联盟官网
获取开发指导文档
华为移动服务开源仓库地址:GitHub、Gitee
关注我们,第一时间了解 HMS Core 最新技术资讯~
https://www.cnblogs.com/hmscore/p/16611781.html
页:
[1]