本文提出采用现有神经机器翻译技术为非瑟环语等低资源本地语言进行在线教育翻译以改进南非教育,并且实验证明采用 Transformer 架构击败以前翻译技术 5.33 BLEU 分数,展示了现有 NMT 技术为非洲语言提供的巨大潜力。
Nov, 2018
该研究聚焦于低资源语言,特别关注尼日尔的低资源语言,制定了有效的数据收集方法,构建了第一个 sba-Fr 数据集,并对三个预训练模型进行了优化,结果显示 M2M100 模型在原始数据和原始 + 合成数据上都取得了较高 BLEU 分数,该公开数据集可用于研究目的。
Aug, 2023
研究了最近神经机器翻译 (NMT) 在英语和五种非洲低资源语言 (LRL) 对之间的效果,并表明多语言模型 (multilingual approach) 在某些翻译方向上有 +5 分数的提升。同时,提供标准的实验数据和测试集以供未来的研究使用。
Mar, 2020
本文研究了 Bambara 这种低资源语言的机器翻译问题,并提出了处理低资源语言数据稀缺问题的策略。我们还介绍了第一个 Bambara 到英文和法文的机器翻译平行数据集,并且提供了第一个机器翻译 Bambara 的基准结果。
Nov, 2020
探讨使用现代神经机器翻译技术实现英语翻译成五种南非官方语言(Afrikaans、isiZulu、Northern Sotho、Setswana、Xitsonga),提供可重复使用的数据、代码和结果,为非洲机器翻译研究提供比较和承建的起点。
Jun, 2019
本文介绍了一种基于循环神经网络(RNN)的机器翻译模型,结合次词单元和法语 - 英语语言对培训,提高了 Wolof / 法语对翻译性能。
May, 2023
本文介绍了一个针对 Luganda 语的 NMT 模型,首次建立 Luganda-English 双语平行语料,并且我们的模型在语言翻译 BLEU 评价中表现出较高的质量,证明为低资源语言建立机器翻译模型的可行性。
Jan, 2023
该研究创建了首个 Hausa Visual Genome 语料库,其中包含 32923 个图像及图像描述,可用于实现 Hausa-English 机器翻译、多模式研究、图像描述等多个自然语言处理和生成任务。
May, 2022
自然语言处理在机器翻译、新闻分类和问答等高资源语种的任务上取得了显著的性能,但对于低资源语种的机器翻译仍有待改善。本文介绍了 EthioMT,一个包含 15 种语言的新的平行语料库,同时收集了一份更为研究充分的语言在埃塞俄比亚的基准数据集,通过使用变压器和微调方法对 23 种埃塞俄比亚语言的新收集语料和基准数据集进行评估。
Mar, 2024
该研究旨在解决针对非洲语言的神经机器翻译方法应用的空缺问题,通过在英语和南非其余十种官方语言之间创建 NMT 基准 BLEU 得分来进行研究。
May, 2020