多语言迁移学习改进原住民语言的神经机器翻译

May, 2022

多语言迁移学习改进原住民语言的神经机器翻译

Improving Neural Machine Translation of Indigenous Languages with Multilingual Transfer Learning

Wei-Rui Chen, Muhammad Abdul-Mageed

TL;DR本篇研究尝试使用预训练的机器翻译模型进行从西班牙语到南美 10 种土著语言的翻译，相对于之前方法使用数据增强的手段，该方法在多种语言上取得了更好的效果。

Abstract

machine translation (MT) involving indigenous languages, including those possibly endangered, is challenging due to lack of sufficient parallel data. We describe an approach exploiting bilingual and multilingual

machine translation indigenous languages pretrained mt models sota transfer learning

发现论文，激发创造

美洲土著语言的神经机器翻译：介绍

介绍了用于低资源语言机器翻译的神经模型的挑战、概念和技术，最后讨论了 NLP 社区对这些语言的兴趣所带来的最新进展和发现。

Jun, 2023

加强对原住民语言的翻译：多语模型实验

本文介绍了 CIC NLP 为 AmericasNLP 2023 的美洲土著语言机器翻译系统共享任务提交的三种方法，其中使用了 M2M-100、mBART50 和 Helsinki NLP Spanish-English 翻译模型，总体而言，mBART 设置能够在 11 种语言中的三种语言中改善基线。

May, 2023

改进印度语系多语言神经机器翻译系统

本文提出了一个 MNMT 系统，通过各种增强策略改进它的性能，研究了方言、语言脚本等因素在提高低资源语言翻译表现中的作用，并展示了回译和领域适应对提高源语言和目标语言翻译质量的优势。通过这些方法，我们的模型在评价指标（即一组 IL 的 BLEU（双语评估协议）得分）方面比基线模型更高效。

Sep, 2022

面向非洲语言的神经机器翻译

本文提出采用现有神经机器翻译技术为非瑟环语等低资源本地语言进行在线教育翻译以改进南非教育，并且实验证明采用 Transformer 架构击败以前翻译技术 5.33 BLEU 分数，展示了现有 NMT 技术为非洲语言提供的巨大潜力。

Nov, 2018

五种非洲语言低资源神经机器翻译基准

研究了最近神经机器翻译 (NMT) 在英语和五种非洲低资源语言 (LRL) 对之间的效果，并表明多语言模型 (multilingual approach) 在某些翻译方向上有 +5 分数的提升。同时，提供标准的实验数据和测试集以供未来的研究使用。

Mar, 2020

低资源语言的神经机器翻译

本文研究通过引入更多本地依赖关系和使用单词对齐来学习翻译过程中的句子重新排序，在低资源语言中使用神经机器翻译 (NMT) 模型，产生仅使用 7 万个训练数据令人满意的翻译结果。

Aug, 2017

IndT5：一个用于 10 种土著语言的文本到文本转换器

本研究介绍了 IndT5，这是首个用于土著语言的 Transformer 语言模型。研究建立了十种土著语言加西班牙语的数据集 IndCorpus，使用 IndT5 实现了西班牙语和土著语言之间的机器翻译。

Apr, 2021

消除印度机器翻译任务流行数据集中的误译方法

使用最大的公开可访问的印度语言平行数据集 Samanantar 进行实验，在二种印度语言 Hindi 和 Odia 上构建一个基准神经机器翻译系统，并通过消除数据集中的错误翻译来提高翻译质量，进而发现尽管 ILs-English 和 English-ILs 系统使用相同的数据集进行训练，但 ILs-English 在所有评估指标上的表现更好。

Jan, 2024

涉及机器翻译土著语言的伦理考虑：赋予说话者发声权

本文探讨了在进行机器翻译低语料资源的土著语言时所带来的伦理问题，调查了当地人对于自己语言机器翻译所需的伦理考虑，并得出了深入研究所需的原生社群成员参与度关键这一结论。

May, 2023

Tencent WMT22 大规模非洲语言多语言机器翻译系统

本文介绍了腾讯的多语言机器翻译系统，该系统使用数据扩增、分布式稳健优化和语系分组等技术来应对数据不平衡和多语言难题，其中在 WMT22 的有限数据情况下，取得了第一名的成绩。

Oct, 2022