FFR V1.0: Fon-French 神经机器翻译
本研究介绍了一种从低资源语言 Fon 翻译成法语的神经机器翻译模型,通过描述 FFR 数据集、语音标点编码过程和 FFR v1.1 模型的训练过程,旨在打破非洲语言壁垒问题,提高翻译模型鲁棒性。
Jun, 2020
探讨使用现代神经机器翻译技术实现英语翻译成五种南非官方语言(Afrikaans、isiZulu、Northern Sotho、Setswana、Xitsonga),提供可重复使用的数据、代码和结果,为非洲机器翻译研究提供比较和承建的起点。
Jun, 2019
本文描述了我们在 2021 年 WMT 共享任务:大规模多语言机器翻译中针对非洲语言的多语言机器翻译任务,提出了第一个多对多非洲语言翻译系统 MMTAfrica,并介绍了一种新的反向翻译和重构目标 BT&REC,可有效利用单语数据。通过 MMTAfrica 在 FLORES 101 基准测试中的结果展示,取得了重大的改进和进步。
Apr, 2022
该研究聚焦于低资源语言,特别关注尼日尔的低资源语言,制定了有效的数据收集方法,构建了第一个 sba-Fr 数据集,并对三个预训练模型进行了优化,结果显示 M2M100 模型在原始数据和原始 + 合成数据上都取得了较高 BLEU 分数,该公开数据集可用于研究目的。
Aug, 2023
本研究主要针对非洲土著语言的神经机器翻译问题,提出基于 Word-Expressions-Based 的超词标记策略,相较于其他标记方法可以更好地应对具有语法、韵律、声调特征的非洲语言翻译训练的困难性。实验结果表明,在 Fon - 法语和法语 - Fon 的翻译任务中,基于该方法得到的 NMT 模型更加可靠。
Mar, 2021
本文描述了我们的努力,以制作一种双向科刚古斯瓦希里语(SWC)到法语(FRA)的神经机器翻译系统,旨在改善人道主义翻译工作流程,并记录了在低资源方法学和半监督学习方面的相关实验结果。我们在泛领域平行语料库和公开可用数据的基础上进行了训练。在 SWC-FRA 和 FRA-SWC 方向上,我们记录了 BLEU 点数提高了 2.4 个和 3.5 个。我们进行了人工评估,评估了我们的模型在刚果民主共和国(DRC)操作的 COVID 领域聊天机器人中的可用性。
Mar, 2021
本文研究了 Bambara 这种低资源语言的机器翻译问题,并提出了处理低资源语言数据稀缺问题的策略。我们还介绍了第一个 Bambara 到英文和法文的机器翻译平行数据集,并且提供了第一个机器翻译 Bambara 的基准结果。
Nov, 2020
该研究介绍了 Feriji,第一个设计用于机器翻译的法语 - 扎尔马语并行语料库和词汇表,这对于解决扎尔马语资源匮乏的问题具有重要意义,研究通过在数据集上微调三个大型语言模型,使其在 BLEU 评估上达到 30.06,同时借助该语料库和模型的人工评估,进一步提高了扎尔马语的流畅度、理解度和可读性,填补了重要的语言差距,促进了非洲土著语言的发展。
Jun, 2024