本文提出了一种针对 Wolof 语的神经机器翻译系统,采用基于 LSTM 的编码器 - 解码器结构,并通过引入双向 LSTM 和注意力机制来进一步扩展。实验结果表明,在非常低的资源条件下,该方法在法语 - Wolof 翻译任务中表现出有前途的翻译效果,最佳模型达到了 47% 的 BLEU 得分。
Mar, 2020
本研究应用深度学习技术解决 Wolof 语言拼写纠错的问题,通过生成合成数据的方式减轻低资源语言没有语料库的限制,同时还探究了不同子词处理方法对模型性能的影响。
May, 2023
本文研究了 Bambara 这种低资源语言的机器翻译问题,并提出了处理低资源语言数据稀缺问题的策略。我们还介绍了第一个 Bambara 到英文和法文的机器翻译平行数据集,并且提供了第一个机器翻译 Bambara 的基准结果。
Nov, 2020
本文通过研究对南非低资源语言的开放词汇语言模型的表现来评估不同变种的 N 元模型、前馈神经网络、循环神经网络和 Transformers 网络。这项研究有望为非洲语言的多语种和低资源语言建模开辟新的研究途径。
Apr, 2021
研究了最近神经机器翻译 (NMT) 在英语和五种非洲低资源语言 (LRL) 对之间的效果,并表明多语言模型 (multilingual approach) 在某些翻译方向上有 +5 分数的提升。同时,提供标准的实验数据和测试集以供未来的研究使用。
该研究聚焦于低资源语言,特别关注尼日尔的低资源语言,制定了有效的数据收集方法,构建了第一个 sba-Fr 数据集,并对三个预训练模型进行了优化,结果显示 M2M100 模型在原始数据和原始 + 合成数据上都取得了较高 BLEU 分数,该公开数据集可用于研究目的。
Aug, 2023
该研究介绍了针对非洲语言低资源、调性复杂性的挑战,使用重要性语言在跨文化交流中的作用及需要准确模型的必要性来实现了 Fon 语及法语之间的机器翻译模型。
该研究论文介绍了关于自然语言处理在非洲语言的应用的研究进展,指出非洲语言的自然语言处理技术和工具存在落后的现象。在此背景下,作者提出了建立一个 Igbo 语言的机器翻译基准数据集的思路,从而提升非洲语言的自然语言技术水平。
Apr, 2020
使用双向 LSTM 网络与相似度度量的对比损失函数,通过在共同空间中学习资源贫乏和资源丰富句子的表示方法,实现了情感分析和表情符预测等文本分类任务中对资源贫乏语言(如印地语和泰卢固语)和资源丰富语言(如英语和西班牙语)进行有效分类的目标。
Jun, 2018
该研究使用公共数据集为 5 种南非语言训练了神经机器翻译模型,并提供了训练和评估模型的代码,旨在促进南非语言领域的未来研究。
Jun, 2019