南非官方语言的神经机器翻译
本文提出采用现有神经机器翻译技术为非瑟环语等低资源本地语言进行在线教育翻译以改进南非教育,并且实验证明采用 Transformer 架构击败以前翻译技术 5.33 BLEU 分数,展示了现有 NMT 技术为非洲语言提供的巨大潜力。
Nov, 2018
探讨使用现代神经机器翻译技术实现英语翻译成五种南非官方语言(Afrikaans、isiZulu、Northern Sotho、Setswana、Xitsonga),提供可重复使用的数据、代码和结果,为非洲机器翻译研究提供比较和承建的起点。
Jun, 2019
该研究聚焦于低资源语言,特别关注尼日尔的低资源语言,制定了有效的数据收集方法,构建了第一个 sba-Fr 数据集,并对三个预训练模型进行了优化,结果显示 M2M100 模型在原始数据和原始 + 合成数据上都取得了较高 BLEU 分数,该公开数据集可用于研究目的。
Aug, 2023
研究了最近神经机器翻译 (NMT) 在英语和五种非洲低资源语言 (LRL) 对之间的效果,并表明多语言模型 (multilingual approach) 在某些翻译方向上有 +5 分数的提升。同时,提供标准的实验数据和测试集以供未来的研究使用。
Mar, 2020
该论文讲述了开普敦大学提交给 WMT22 大规模机器翻译评估竞赛的受限跟踪的情况。该系统是一个单一的多语种翻译模型,可在英语和 8 种南部 / 东南部非洲语言之间进行翻译,并可在特定的非洲语言对之间进行翻译。该研究采用了多种适用于低资源机器翻译的技术,包括重叠 BPE、回译、合成训练数据生成以及在训练过程中增加更多的翻译方向。结果表明,这些技术的价值尤为突出,特别是对于非常少或没有双语训练数据可用的方向。
Oct, 2022
本文介绍了腾讯的多语言机器翻译系统,该系统使用数据扩增、分布式稳健优化和语系分组等技术来应对数据不平衡和多语言难题,其中在 WMT22 的有限数据情况下,取得了第一名的成绩。
Oct, 2022
本文描述了我们在 2021 年 WMT 共享任务:大规模多语言机器翻译中针对非洲语言的多语言机器翻译任务,提出了第一个多对多非洲语言翻译系统 MMTAfrica,并介绍了一种新的反向翻译和重构目标 BT&REC,可有效利用单语数据。通过 MMTAfrica 在 FLORES 101 基准测试中的结果展示,取得了重大的改进和进步。
Apr, 2022
通过比较零 - shot 学习、迁移学习和多语言学习在三种班图语(Shona、IsiXhosa 和 IsiZulu)和英语翻译中的表现,我们展示了语言相似性对英语到 isiZulu 的迁移学习性能的重要性,并证明多语言学习在我们的数据集上优于迁移学习和零 - shot 学习,其最佳模型相对于基线英语到 isiZulu 模型的 BLEU 得分提高了 9.9、6.1 和 2.0,同时超过了之前的最佳表现。
Apr, 2021