HausaMT v1.0：面向英豪撒神经机器翻译

ACLJun, 2020

HausaMT v1.0：面向英豪撒神经机器翻译

HausaMT v1.0: Towards English-Hausa Neural Machine Translation

Adewale Akinfaderin

TL;DR构建英豪沙机器翻译基线模型，通过采用标准单词级和 BPE 子词级标记方法使用循环和变压器编码 - 解码架构评估模型性能，以改善低资源语言的神经机器翻译问题。

Abstract

neural machine translation (NMT) for low-resource languages suffers from low performance because of the lack of large amounts of parallel data and language diversity. To contribute to ameliorating this problem, w

neural machine translation low-resource languages english-hausa parallel corpus tokenization approaches

发现论文，激发创造

面向非洲语言的神经机器翻译

本文提出采用现有神经机器翻译技术为非瑟环语等低资源本地语言进行在线教育翻译以改进南非教育，并且实验证明采用 Transformer 架构击败以前翻译技术 5.33 BLEU 分数，展示了现有 NMT 技术为非洲语言提供的巨大潜力。

Nov, 2018

Ngambay - 法语神经机器翻译 (sba-Fr)

该研究聚焦于低资源语言，特别关注尼日尔的低资源语言，制定了有效的数据收集方法，构建了第一个 sba-Fr 数据集，并对三个预训练模型进行了优化，结果显示 M2M100 模型在原始数据和原始 + 合成数据上都取得了较高 BLEU 分数，该公开数据集可用于研究目的。

Aug, 2023

五种非洲语言低资源神经机器翻译基准

研究了最近神经机器翻译 (NMT) 在英语和五种非洲低资源语言 (LRL) 对之间的效果，并表明多语言模型 (multilingual approach) 在某些翻译方向上有 +5 分数的提升。同时，提供标准的实验数据和测试集以供未来的研究使用。

Mar, 2020

极低资源非洲语言的神经机器翻译：巴姆巴拉语案例研究

本文研究了 Bambara 这种低资源语言的机器翻译问题，并提出了处理低资源语言数据稀缺问题的策略。我们还介绍了第一个 Bambara 到英文和法文的机器翻译平行数据集，并且提供了第一个机器翻译 Bambara 的基准结果。

Nov, 2020

非洲语言神经机器翻译的重点

探讨使用现代神经机器翻译技术实现英语翻译成五种南非官方语言（Afrikaans、isiZulu、Northern Sotho、Setswana、Xitsonga），提供可重复使用的数据、代码和结果，为非洲机器翻译研究提供比较和承建的起点。

Jun, 2019

塞内加尔沃洛夫语的低资源机器翻译

本文介绍了一种基于循环神经网络（RNN）的机器翻译模型，结合次词单元和法语 - 英语语言对培训，提高了 Wolof / 法语对翻译性能。

May, 2023

在卢干达语和英语之间构建平行语料库和训练翻译模型

本文介绍了一个针对 Luganda 语的 NMT 模型，首次建立 Luganda-English 双语平行语料，并且我们的模型在语言翻译 BLEU 评价中表现出较高的质量，证明为低资源语言建立机器翻译模型的可行性。

Jan, 2023

豪萨视觉基因组：用于多模式英豪机器翻译的数据集

该研究创建了首个 Hausa Visual Genome 语料库，其中包含 32923 个图像及图像描述，可用于实现 Hausa-English 机器翻译、多模式研究、图像描述等多个自然语言处理和生成任务。

May, 2022

EthioMT：适用于低资源埃塞俄比亚语言的平行语料库

自然语言处理在机器翻译、新闻分类和问答等高资源语种的任务上取得了显著的性能，但对于低资源语种的机器翻译仍有待改善。本文介绍了 EthioMT，一个包含 15 种语言的新的平行语料库，同时收集了一份更为研究充分的语言在埃塞俄比亚的基准数据集，通过使用变压器和微调方法对 23 种埃塞俄比亚语言的新收集语料和基准数据集进行评估。

Mar, 2024

南非官方语言的神经机器翻译

该研究旨在解决针对非洲语言的神经机器翻译方法应用的空缺问题，通过在英语和南非其余十种官方语言之间创建 NMT 基准 BLEU 得分来进行研究。

May, 2020