探讨使用现代神经机器翻译技术实现英语翻译成五种南非官方语言(Afrikaans、isiZulu、Northern Sotho、Setswana、Xitsonga),提供可重复使用的数据、代码和结果,为非洲机器翻译研究提供比较和承建的起点。
Jun, 2019
该研究旨在解决针对非洲语言的神经机器翻译方法应用的空缺问题,通过在英语和南非其余十种官方语言之间创建 NMT 基准 BLEU 得分来进行研究。
May, 2020
该研究使用公共数据集为 5 种南非语言训练了神经机器翻译模型,并提供了训练和评估模型的代码,旨在促进南非语言领域的未来研究。
该研究聚焦于低资源语言,特别关注尼日尔的低资源语言,制定了有效的数据收集方法,构建了第一个 sba-Fr 数据集,并对三个预训练模型进行了优化,结果显示 M2M100 模型在原始数据和原始 + 合成数据上都取得了较高 BLEU 分数,该公开数据集可用于研究目的。
Aug, 2023
研究了最近神经机器翻译 (NMT) 在英语和五种非洲低资源语言 (LRL) 对之间的效果,并表明多语言模型 (multilingual approach) 在某些翻译方向上有 +5 分数的提升。同时,提供标准的实验数据和测试集以供未来的研究使用。
Mar, 2020
该研究探索了低资源语言领域的神经机器翻译以及如何通过 NLP 和深度学习技术对语言模型进行改进
Apr, 2023
构建英豪沙机器翻译基线模型,通过采用标准单词级和 BPE 子词级标记方法使用循环和变压器编码 - 解码架构评估模型性能,以改善低资源语言的神经机器翻译问题。
Jun, 2020
介绍了用于低资源语言机器翻译的神经模型的挑战、概念和技术,最后讨论了 NLP 社区对这些语言的兴趣所带来的最新进展和发现。
Jun, 2023
通过比较零 - shot 学习、迁移学习和多语言学习在三种班图语(Shona、IsiXhosa 和 IsiZulu)和英语翻译中的表现,我们展示了语言相似性对英语到 isiZulu 的迁移学习性能的重要性,并证明多语言学习在我们的数据集上优于迁移学习和零 - shot 学习,其最佳模型相对于基线英语到 isiZulu 模型的 BLEU 得分提高了 9.9、6.1 和 2.0,同时超过了之前的最佳表现。
Apr, 2021
本文提出了一个 MNMT 系统,通过各种增强策略改进它的性能,研究了方言、语言脚本等因素在提高低资源语言翻译表现中的作用,并展示了回译和领域适应对提高源语言和目标语言翻译质量的优势。通过这些方法,我们的模型在评价指标(即一组 IL 的 BLEU(双语评估协议)得分)方面比基线模型更高效。
Sep, 2022