机器翻译的土鲁语资源

COLINGMar, 2024

A Tulu Resource for Machine Translation

Manu Narayanan, Noëmi Aepli

TL;DR我们提供了第一个用于英图鲁翻译的并行数据集。我们使用该数据集开发了英图鲁机器翻译模型，并采用了转移学习方法来解决低资源语言的机器翻译开发中的障碍。

Abstract

We present the first parallel dataset for english-tulu translation. Tulu, classified within the South Dravidian linguistic family branch, is predominantly spoken by approximately 2.5 million individuals in southw

english-tulu translation south dravidian languages parallel dataset transfer learning low-resource languages

发现论文，激发创造

低资源机器翻译的 FLoRes 评估数据集：尼泊尔语 - 英语和僧伽罗语 - 英语

本研究介绍了 FLoRes 评估数据集，并针对 Nepali-English 和 Sinhala-English 等低资源语言，以维基百科翻译句子为基础，展开全面评测各类联机翻译方法的表现，进而发现当前最先进的方法对于这一基准测试的表现相对较差，给低资源机器翻译的研究提出了挑战。

Feb, 2019

PICT@DravidianLangTech-ACL2022：德拉维达语言的神经机器翻译

本文介绍了关于南印度德拉维达语系机器翻译的研究成果，通过针对五种不同德拉维达语系的机器翻译和使用 Seq2Seq 模型进行训练，我们在其中三项子任务中名列第一，并以 BLEU 分数作为评估指标测试了模型的准确性。

Apr, 2022

不再是低资源：对齐器集成、批处理过滤和新的孟加拉 - 英语机器翻译数据集

本研究利用自定义句子分段器和两种新方法，构建一个高质量的孟加拉语 - 英语双语平行语料库，从而提高孟加拉语机器翻译的 BLEU 指标，并评估了一个包含 1000 个双语句对的测试集，释放了分段器，平行语料库和评估集，为孟加拉语以及其他低资源语言的机器翻译研究铺平了道路。

Sep, 2020

为印度语言建立一个多语言平行语料收集的努力

通过基于深度学习的方法使用机器翻译和跨语言检索工具，我们提供了涵盖 10 种印度语言的句子对齐平行语料库，包括低资源语言，此外还提供了独立测试语料库用于验证 10 种印度语言的性能。

Jul, 2020

英语 - 特威语机器翻译平行语料库

本研究提供一份用于英语和 Akuapem Twi 的平行机器翻译训练语料库，其中包含 25,421 组句子对，主要使用 Transformer 为基础的翻译器生成初始的 Akuapem Twi 翻译，并通过由母语为 Akuapem Twi 的人验证和校对以消除翻译错误，同时提供了更高质量的 697 个众包句子，可用于下游自然语言处理任务的评估集。此研究通过 fine-tune transformer 翻译模型在该训练语料库上训练，并在众包测试集上进行性能基准测试，推荐这一数据集用于 Akuapem Twi 机器翻译的进一步训练和评估。

Mar, 2021

构建东北印度极低资源语言机器翻译平行语料的首次尝试

该论文介绍了为印度东北地区的十三种资源非常匮乏的语言创建初始的双语语料库，同时提供了这些语言的初始翻译结果。该论文还创建了这些语言的首个平行语料库，并提供了关于这些语言的基准神经机器翻译结果。我们打算将这些语料库扩展到包括大量资源匮乏的印度语言，并结合我们之前在非洲和美洲印第安语言方面的工作，创建覆盖世界各地大量语言的语料库。

Dec, 2023

印度德拉维达语系自监督机器翻译

本研究探讨无监督神经机器翻译在象征 Dravidian 家族的低资源语言翻译领域中的应用，并通过使用其他相关 Dravidian 语言之间的有限而有益的辅助数据，建议在 UNMT 模型中统一书写系统是非常重要的。利用所提出的语言相似度指标可选择相似的辅助语言来实现 UNMT，可以产生较好的效果。

Mar, 2021

IruMozhi：自动分类泰米尔双语现象

释放了一个人工注释的文学和口语泰米尔语的平行文本数据集（IruMozhi），用于训练分类器以识别文本所属的语言版本，以评估口语泰米尔语的预训练数据的可用性，并促进未来对不同版本的工作。

Nov, 2023

在卢干达语和英语之间构建平行语料库和训练翻译模型

本文介绍了一个针对 Luganda 语的 NMT 模型，首次建立 Luganda-English 双语平行语料，并且我们的模型在语言翻译 BLEU 评价中表现出较高的质量，证明为低资源语言建立机器翻译模型的可行性。

Jan, 2023

使用 Tacotron2、WaveGlow 和迁移学习的低资源端到端梵语 TTS

本文研究使用 fine-tuning 改进了英语预训练的 Tacotron2 模型，以有限的梵语数据在资源匮乏的环境下合成自然语音，并取得了令人鼓舞的结果。

Dec, 2022