介绍了用于低资源语言机器翻译的神经模型的挑战、概念和技术,最后讨论了 NLP 社区对这些语言的兴趣所带来的最新进展和发现。
Jun, 2023
本文介绍了 CIC NLP 为 AmericasNLP 2023 的美洲土著语言机器翻译系统共享任务提交的三种方法,其中使用了 M2M-100、mBART50 和 Helsinki NLP Spanish-English 翻译模型,总体而言,mBART 设置能够在 11 种语言中的三种语言中改善基线。
May, 2023
本文提出了一个 MNMT 系统,通过各种增强策略改进它的性能,研究了方言、语言脚本等因素在提高低资源语言翻译表现中的作用,并展示了回译和领域适应对提高源语言和目标语言翻译质量的优势。通过这些方法,我们的模型在评价指标(即一组 IL 的 BLEU(双语评估协议)得分)方面比基线模型更高效。
Sep, 2022
本文提出采用现有神经机器翻译技术为非瑟环语等低资源本地语言进行在线教育翻译以改进南非教育,并且实验证明采用 Transformer 架构击败以前翻译技术 5.33 BLEU 分数,展示了现有 NMT 技术为非洲语言提供的巨大潜力。
Nov, 2018
研究了最近神经机器翻译 (NMT) 在英语和五种非洲低资源语言 (LRL) 对之间的效果,并表明多语言模型 (multilingual approach) 在某些翻译方向上有 +5 分数的提升。同时,提供标准的实验数据和测试集以供未来的研究使用。
Mar, 2020
本文研究通过引入更多本地依赖关系和使用单词对齐来学习翻译过程中的句子重新排序,在低资源语言中使用神经机器翻译 (NMT) 模型,产生仅使用 7 万个训练数据令人满意的翻译结果。
Aug, 2017
本研究介绍了 IndT5,这是首个用于土著语言的 Transformer 语言模型。研究建立了十种土著语言加西班牙语的数据集 IndCorpus,使用 IndT5 实现了西班牙语和土著语言之间的机器翻译。
Apr, 2021
使用最大的公开可访问的印度语言平行数据集 Samanantar 进行实验,在二种印度语言 Hindi 和 Odia 上构建一个基准神经机器翻译系统,并通过消除数据集中的错误翻译来提高翻译质量,进而发现尽管 ILs-English 和 English-ILs 系统使用相同的数据集进行训练,但 ILs-English 在所有评估指标上的表现更好。
Jan, 2024
本文探讨了在进行机器翻译低语料资源的土著语言时所带来的伦理问题,调查了当地人对于自己语言机器翻译所需的伦理考虑,并得出了深入研究所需的原生社群成员参与度关键这一结论。
本文介绍了腾讯的多语言机器翻译系统,该系统使用数据扩增、分布式稳健优化和语系分组等技术来应对数据不平衡和多语言难题,其中在 WMT22 的有限数据情况下,取得了第一名的成绩。
Oct, 2022