塞内加尔沃洛夫语的低资源机器翻译

MMMay, 2023

塞内加尔沃洛夫语的低资源机器翻译

Low-Resourced Machine Translation for Senegalese Wolof Language

Derguene Mbaye, Moussa Diallo, Thierno Ibrahima Diop

TL;DR本文介绍了一种基于循环神经网络（RNN）的机器翻译模型，结合次词单元和法语 - 英语语言对培训，提高了 Wolof / 法语对翻译性能。

Abstract

natural language processing (nlp) research has made great advancements in recent years with major breakthroughs that have established new benchmarks. However, these advances have mainly benefited a certain group

natural language processing nlp machine translation wolof french

发现论文，激发创造

使用 LSTM 将法语翻译为塞内加尔本地语言：以沃洛夫语为例

本文提出了一种针对 Wolof 语的神经机器翻译系统，采用基于 LSTM 的编码器 - 解码器结构，并通过引入双向 LSTM 和注意力机制来进一步扩展。实验结果表明，在非常低的资源条件下，该方法在法语 - Wolof 翻译任务中表现出有前途的翻译效果，最佳模型达到了 47% 的 BLEU 得分。

Mar, 2020

使用强大的拼写校正器来使塞内加尔沃洛夫语言复兴

本研究应用深度学习技术解决 Wolof 语言拼写纠错的问题，通过生成合成数据的方式减轻低资源语言没有语料库的限制，同时还探究了不同子词处理方法对模型性能的影响。

May, 2023

极低资源非洲语言的神经机器翻译：巴姆巴拉语案例研究

本文研究了 Bambara 这种低资源语言的机器翻译问题，并提出了处理低资源语言数据稀缺问题的策略。我们还介绍了第一个 Bambara 到英文和法文的机器翻译平行数据集，并且提供了第一个机器翻译 Bambara 的基准结果。

Nov, 2020

南非语言低资源语言建模

本文通过研究对南非低资源语言的开放词汇语言模型的表现来评估不同变种的 N 元模型、前馈神经网络、循环神经网络和 Transformers 网络。这项研究有望为非洲语言的多语种和低资源语言建模开辟新的研究途径。

Apr, 2021

五种非洲语言低资源神经机器翻译基准

研究了最近神经机器翻译 (NMT) 在英语和五种非洲低资源语言 (LRL) 对之间的效果，并表明多语言模型 (multilingual approach) 在某些翻译方向上有 +5 分数的提升。同时，提供标准的实验数据和测试集以供未来的研究使用。

Mar, 2020

Ngambay - 法语神经机器翻译 (sba-Fr)

该研究聚焦于低资源语言，特别关注尼日尔的低资源语言，制定了有效的数据收集方法，构建了第一个 sba-Fr 数据集，并对三个预训练模型进行了优化，结果显示 M2M100 模型在原始数据和原始 + 合成数据上都取得了较高 BLEU 分数，该公开数据集可用于研究目的。

Aug, 2023

FFR V1.0: Fon-French 神经机器翻译

该研究介绍了针对非洲语言低资源、调性复杂性的挑战，使用重要性语言在跨文化交流中的作用及需要准确模型的必要性来实现了 Fon 语及法语之间的机器翻译模型。

Mar, 2020

伊博语 - 英语机器翻译：评估基准

该研究论文介绍了关于自然语言处理在非洲语言的应用的研究进展，指出非洲语言的自然语言处理技术和工具存在落后的现象。在此背景下，作者提出了建立一个 Igbo 语言的机器翻译基准数据集的思路，从而提升非洲语言的自然语言技术水平。

Apr, 2020

面向资源匮乏语言的跨语言任务特定表示学习用于文本分类

使用双向 LSTM 网络与相似度度量的对比损失函数，通过在共同空间中学习资源贫乏和资源丰富句子的表示方法，实现了情感分析和表情符预测等文本分类任务中对资源贫乏语言（如印地语和泰卢固语）和资源丰富语言（如英语和西班牙语）进行有效分类的目标。

Jun, 2018

用于南非语言的神经机器翻译基准测试

该研究使用公共数据集为 5 种南非语言训练了神经机器翻译模型，并提供了训练和评估模型的代码，旨在促进南非语言领域的未来研究。

Jun, 2019