该研究使用公共数据集为 5 种南非语言训练了神经机器翻译模型,并提供了训练和评估模型的代码,旨在促进南非语言领域的未来研究。
Jun, 2019
本文提出采用现有神经机器翻译技术为非瑟环语等低资源本地语言进行在线教育翻译以改进南非教育,并且实验证明采用 Transformer 架构击败以前翻译技术 5.33 BLEU 分数,展示了现有 NMT 技术为非洲语言提供的巨大潜力。
Nov, 2018
该研究旨在解决针对非洲语言的神经机器翻译方法应用的空缺问题,通过在英语和南非其余十种官方语言之间创建 NMT 基准 BLEU 得分来进行研究。
May, 2020
通过比较零 - shot 学习、迁移学习和多语言学习在三种班图语(Shona、IsiXhosa 和 IsiZulu)和英语翻译中的表现,我们展示了语言相似性对英语到 isiZulu 的迁移学习性能的重要性,并证明多语言学习在我们的数据集上优于迁移学习和零 - shot 学习,其最佳模型相对于基线英语到 isiZulu 模型的 BLEU 得分提高了 9.9、6.1 和 2.0,同时超过了之前的最佳表现。
Apr, 2021
本文通过研究对南非低资源语言的开放词汇语言模型的表现来评估不同变种的 N 元模型、前馈神经网络、循环神经网络和 Transformers 网络。这项研究有望为非洲语言的多语种和低资源语言建模开辟新的研究途径。
本文介绍了 MASAKHANE 建立非洲自然语言处理和机器翻译社区的方法和成功经验。
Mar, 2020
本文描述了我们在 2021 年 WMT 共享任务:大规模多语言机器翻译中针对非洲语言的多语言机器翻译任务,提出了第一个多对多非洲语言翻译系统 MMTAfrica,并介绍了一种新的反向翻译和重构目标 BT&REC,可有效利用单语数据。通过 MMTAfrica 在 FLORES 101 基准测试中的结果展示,取得了重大的改进和进步。
Apr, 2022
该研究聚焦于低资源语言,特别关注尼日尔的低资源语言,制定了有效的数据收集方法,构建了第一个 sba-Fr 数据集,并对三个预训练模型进行了优化,结果显示 M2M100 模型在原始数据和原始 + 合成数据上都取得了较高 BLEU 分数,该公开数据集可用于研究目的。
Aug, 2023
本文研究了 Bambara 这种低资源语言的机器翻译问题,并提出了处理低资源语言数据稀缺问题的策略。我们还介绍了第一个 Bambara 到英文和法文的机器翻译平行数据集,并且提供了第一个机器翻译 Bambara 的基准结果。
Nov, 2020
介绍了用于低资源语言机器翻译的神经模型的挑战、概念和技术,最后讨论了 NLP 社区对这些语言的兴趣所带来的最新进展和发现。
Jun, 2023