为印度语言建立一个多语言平行语料收集的努力

Jul, 2020

为印度语言建立一个多语言平行语料收集的努力

A Multilingual Parallel Corpora Collection Effort for Indian Languages

Shashank Siripragada, Jerin Philip, Vinay P. Namboodiri, C V Jawahar

TL;DR通过基于深度学习的方法使用机器翻译和跨语言检索工具，我们提供了涵盖 10 种印度语言的句子对齐平行语料库，包括低资源语言，此外还提供了独立测试语料库用于验证 10 种印度语言的性能。

Abstract

We present sentence aligned parallel corpora across 10 indian languages - Hindi, Telugu, Tamil, Malayalam, Gujarati, Urdu, Bengali, Oriya, Marathi, Punjabi, and English - many of which are categorized as

parallel corpora indian languages low resource machine translation cross-lingual retrieval

发现论文，激发创造

构建东北印度极低资源语言机器翻译平行语料的首次尝试

该论文介绍了为印度东北地区的十三种资源非常匮乏的语言创建初始的双语语料库，同时提供了这些语言的初始翻译结果。该论文还创建了这些语言的首个平行语料库，并提供了关于这些语言的基准神经机器翻译结果。我们打算将这些语料库扩展到包括大量资源匮乏的印度语言，并结合我们之前在非洲和美洲印第安语言方面的工作，创建覆盖世界各地大量语言的语料库。

Dec, 2023

PMIndia -- 印度语言平行语料库集合

本研究提供了一个新的公开平行语料库（PMIndia），其中包含 13 种主要印度语言和英语的成对平行句子，每种语言对包含高达 56000 个句子。该语料库的构建及两种不同自动句子对齐方法的评估被描述，同时还介绍了该语料库在 NMT 方面的一些初步结果。

Jan, 2020

印度低资源语言的带注释语音语料库：Awadhi、Bhojpuri、Braj 和 Magahi

本文介绍我们正在进行的工作，使用语言学数据收集的领域方法，为四种资源匮乏的印度 - 雅利安语言 —— 阿瓦德语、博杰普尔语、布拉杰语和马加希语开发语音语料库。我们还讨论了这些语言的数据收集方法，大部分是在 COVID-19 疫情期间进行的，目的之一是为讲这些语言的低收入群体提供额外的收入来源，并讨论了这些语言的自动语音识别系统的基线实验结果。

Jun, 2022

IndicIRSuite：印度语言的多语种数据集和神经信息模型

该论文介绍了为 11 种广泛使用的印度语言（阿萨姆语、孟加拉语、古吉拉特语、印地语、卡纳达语、马拉雅拉姆语、马拉地语、奥利亚语、旁遮普语、泰米尔语和特鲁古语）引入神经信息检索资源的工作。这些资源包括使用机器翻译创建的 11 种印度语言版本的 MSMARCO 数据集（称为 INDIC-MARCO）以及 11 种不同的单语神经信息检索模型集合（称为 Indic-ColBERT），每个模型都在 INDIC-MARCO 数据集中的一种语言上进行训练。IndicIRSuite 是为大量印度语言构建大规模神经信息检索资源的首次尝试，我们希望它能加速印度语言神经信息检索的研究。实验证明，与 INDIC-MARCO 基线相比，Indic-ColBERT 在除奥利亚语外的所有 11 种印度语言上的 MRR@10 得分平均改进了 47.47%，在 MIRACL 孟加拉语和印地语基线上的 NDCG@10 得分平均改进了 12.26%，在 Mr.Tydi 孟加拉语基线上的 MRR@100 得分改进了 20%。IndicIRSuite 可以在此 https URL 上获取。

Dec, 2023

孟买印度理工学院英汉平行语料库

本文介绍了 IIT Bombay 英印双语平行语料库，包含超过 140 万个平行句段，其中有 69.4k 个句段从未公开发布，是目前公开发布的最大的英印平行语料库之一，并已被用于机器翻译的基准测试和分享任务。此语料库可供非商业研究免费使用。

Oct, 2017

机器翻译中印度语言的低资源状态再探讨

本文提供并分析了一个用于印度语神经机器翻译系统的大规模多语言句子对齐语料库和强大基准的自动化框架，其中包括基线 NMT 系统，检索模块和用于公共网站的对齐模块，通过迭代增加语料库来改进系统。我们的工作还评估了设计选择，例如枢轴语言的选择和迭代式增量语料库增加的影响。与现有的印度语语料库相比，本工作不仅提供了自动化框架，还产生了一个相对较大的语料库。这个语料库使我们能够在公开的 WAT 评估基准和其他标准评估基准上获得明显改善的结果。

Aug, 2020

Samanantar: 11 种印度语言最大的公开并行语料库收集

介绍了 Samanantar，这是最大的公共平行语料库集合，包括英语和 11 种印度语言之间的 49.7 百万句子对，同时提取自公共平行语料库和网络，并在 Samanantar 上训练多语种 NMT 模型，从而在公开可用的基准测试上优于现有模型和基准线，希望能够推进印度语言的 NMT 和多语种 NLP 研究。

Apr, 2021

构建和扩展印尼本地语言的低资源和代表性平行数据集

介绍了 Bhinneka Korpus 这一多语种并行语料库，以增强印度尼西亚当地语言资源的获取和利用，并通过 IBM 模型 1 实验表明该语料库在进一步发展低资源语言的高级 NLP 技术和多语种翻译模型方面显示出良好的性能。

Apr, 2024

EthioMT：适用于低资源埃塞俄比亚语言的平行语料库

自然语言处理在机器翻译、新闻分类和问答等高资源语种的任务上取得了显著的性能，但对于低资源语种的机器翻译仍有待改善。本文介绍了 EthioMT，一个包含 15 种语言的新的平行语料库，同时收集了一份更为研究充分的语言在埃塞俄比亚的基准数据集，通过使用变压器和微调方法对 23 种埃塞俄比亚语言的新收集语料和基准数据集进行评估。

Mar, 2024

自动识别接近的印度语言：资源和实验

本文讨论了一个自动语言识别系统的尝试，该系统用于印度 5 种密切相关的印度雅利安语言：阿瓦德语、博杰普尔语、布拉吉语、印地语和马加耳语。使用不同来源的可比较语料库，编译了这些语言的长度不同的语料库。使用这些语料库，开发了一个语言识别系统，目前的准确率为 96.48％。我们还使用这些语料库研究了 5 种语言在词汇水平上的相似性，这是这些语言亲和度首个基于数据的研究。

Mar, 2018