Masakhane -- 非洲机器翻译
探讨使用现代神经机器翻译技术实现英语翻译成五种南非官方语言(Afrikaans、isiZulu、Northern Sotho、Setswana、Xitsonga),提供可重复使用的数据、代码和结果,为非洲机器翻译研究提供比较和承建的起点。
Jun, 2019
本文探讨了如何利用参与性研究,将机器翻译(MT)技术应用于非洲语言,以解决NLP在地理分布上欠缺多样性并实现NLP的规模化问题。我们提出了一种可行性高并可扩展的情境下的参与式研究方案,其使非专业人员也能对MT技术的开发做出独特的科学贡献,并制定了适用于30多种语言的MT基准。
Oct, 2020
本文介绍了第一个大型公开高质量的非洲十种语言的命名实体识别数据集,研究这些语言对命名实体识别带来的挑战,并在监督和迁移学习设置下进行了广泛的实证评估和分析,旨在启发未来的非洲自然语言处理研究。
Mar, 2021
我们提出了AfroMT,这是一个针对非洲8种使用广泛、标准、干净和可重现的机器翻译基准,并开发了诊断系统的一套分析工具,探讨了低资源预训练的可能性,提出了两种基于数据增强的策略,并展示了在11种语言预训练的情况下,数据受限情况下比跨语言转移基线提高了12 BLEU分数的结果。
Sep, 2021
该论文讲述了开普敦大学提交给WMT22大规模机器翻译评估竞赛的受限跟踪的情况。该系统是一个单一的多语种翻译模型,可在英语和8种南部/东南部非洲语言之间进行翻译,并可在特定的非洲语言对之间进行翻译。该研究采用了多种适用于低资源机器翻译的技术,包括重叠BPE、回译、合成训练数据生成以及在训练过程中增加更多的翻译方向。结果表明,这些技术的价值尤为突出,特别是对于非常少或没有双语训练数据可用的方向。
Oct, 2022
该论文提出了 MasakhaNEWS 数据集来支持在 16 种非洲语言上的新闻主题分类研究,并探索了多种机器学习方法以支持零样本和少样本学习。通过使用 ChatGPT 等技术实现了在低资源非洲语言中进行新闻主题分类任务,能够在零样本情况下实现平均 F1 得分 70,利用 PET 方法,10 个样本即可实现较好的效果。
Apr, 2023
该研究介绍了Feriji,第一个设计用于机器翻译的法语-扎尔马语并行语料库和词汇表,这对于解决扎尔马语资源匮乏的问题具有重要意义,研究通过在数据集上微调三个大型语言模型,使其在BLEU评估上达到30.06,同时借助该语料库和模型的人工评估,进一步提高了扎尔马语的流畅度、理解度和可读性,填补了重要的语言差距,促进了非洲土著语言的发展。
Jun, 2024
我们通过引入一套用于改善低资源语言的机器翻译的资源集合,填补了自然语言处理领域的一个显著的空白,特别关注非洲语言。我们介绍了两个语言模型(Cheetah-1.2B和Cheetah-3.7B),分别具有12亿和37亿个参数。接下来,我们对上述模型进行微调,创建了一个名为toucan的非洲中心的机器翻译模型,支持156种非洲语言对。为了评估toucan,我们精心开发了一个广泛的机器翻译基准,命名为AfroLingu-MT,专门用于评估机器翻译。toucan在性能上显著优于其他模型,展示了其在非洲语言机器翻译方面的出色表现。最后,我们训练了一个新模型spBLEU-1K,以提高翻译评估指标,覆盖了614种非洲语言在内的1K种语言。该工作旨在推进自然语言处理领域,促进跨文化理解和知识交流,特别是在具有有限语言资源的地区,如非洲。Toucan项目的GitHub仓库位于此https网址。
Jul, 2024
本研究解决了低资源语言扎尔玛语的语法错误校正问题。通过比较基于规则的方法、机器翻译模型和大型语言模型,发现M2M100模型的效果最佳,检测率高达95.82%,建议准确率为78.90%。该工作强调了机器翻译模型提高低资源语言的语法错误校正的潜力,为更具包容性的自然语言处理工具铺平了道路。
Oct, 2024