IndicTrans2：适用于所有 22 个印度预定语言的高质量可访问机器翻译模型

May, 2023

IndicTrans2：适用于所有 22 个印度预定语言的高质量可访问机器翻译模型

IndicTrans2: Towards High-Quality and Accessible Machine Translation Models for all 22 Scheduled Indian Languages

AI4Bharat, Jay Gala, Pranjal A. Chitale, Raghavan AK, Sumanth Doddapaneni...

TL;DR该研究旨在通过整合并创建特定于印度的并行语料库和基准测试数据，训练出支持所有 22 种印度语言的机器翻译模型，为印度的语言多样性提供广泛且易于访问的机器翻译系统，该研究创造性地提出了四个关键领域的改进，并发布了 BPCC 和 IndicTrans2 等数据资源和模型。

Abstract

india has a rich linguistic landscape with languages from 4 major language families spoken by over a billion people. 22 of these languages are listed in the Constitution of india (referred to as scheduled languag

india linguistic diversity machine translation parallel corpus indic languages

发现论文，激发创造

改进印度语系多语言神经机器翻译系统

本文提出了一个 MNMT 系统，通过各种增强策略改进它的性能，研究了方言、语言脚本等因素在提高低资源语言翻译表现中的作用，并展示了回译和领域适应对提高源语言和目标语言翻译质量的优势。通过这些方法，我们的模型在评价指标（即一组 IL 的 BLEU（双语评估协议）得分）方面比基线模型更高效。

Sep, 2022

IndicIRSuite：印度语言的多语种数据集和神经信息模型

该论文介绍了为 11 种广泛使用的印度语言（阿萨姆语、孟加拉语、古吉拉特语、印地语、卡纳达语、马拉雅拉姆语、马拉地语、奥利亚语、旁遮普语、泰米尔语和特鲁古语）引入神经信息检索资源的工作。这些资源包括使用机器翻译创建的 11 种印度语言版本的 MSMARCO 数据集（称为 INDIC-MARCO）以及 11 种不同的单语神经信息检索模型集合（称为 Indic-ColBERT），每个模型都在 INDIC-MARCO 数据集中的一种语言上进行训练。IndicIRSuite 是为大量印度语言构建大规模神经信息检索资源的首次尝试，我们希望它能加速印度语言神经信息检索的研究。实验证明，与 INDIC-MARCO 基线相比，Indic-ColBERT 在除奥利亚语外的所有 11 种印度语言上的 MRR@10 得分平均改进了 47.47%，在 MIRACL 孟加拉语和印地语基线上的 NDCG@10 得分平均改进了 12.26%，在 Mr.Tydi 孟加拉语基线上的 MRR@100 得分改进了 20%。IndicIRSuite 可以在此 https URL 上获取。

Dec, 2023

IndicLLMSuite：针对印度语言创建预训练和微调数据集的蓝图

通过引入针对 Indic LLMs 开发的广泛资源套件，包括 22 种语言，总共有 251 亿词汇和 7480 万指令 - 响应对，我们的工作旨在弥合其他语言的类似模型建设进展受限于资源稀缺的差距。我们的方法结合了高度策划的手动验证数据、有价值但未验证的数据和合成数据，建立了一个干净的开源流水线，用于从各种来源收集预训练数据，并采用最佳实践进行爬取、清理、标记和去重。我们还通过生成多种情景的有毒提示来解决毒性对齐问题，并通过将这些有毒提示输入到经过校对的 LLaMa2 模型中生成非有毒响应。我们希望本工作释放的数据、工具和资源不仅能推动 Indic LLMs 的研究和开发，还能为将这种努力扩展到其他语言建立一个开源蓝图。作为本工作的一部分，创建的数据和其他文物都以宽松的许可证发布。

Mar, 2024

机器翻译中印度语言的低资源状态再探讨

本文提供并分析了一个用于印度语神经机器翻译系统的大规模多语言句子对齐语料库和强大基准的自动化框架，其中包括基线 NMT 系统，检索模块和用于公共网站的对齐模块，通过迭代增加语料库来改进系统。我们的工作还评估了设计选择，例如枢轴语言的选择和迭代式增量语料库增加的影响。与现有的印度语语料库相比，本工作不仅提供了自动化框架，还产生了一个相对较大的语料库。这个语料库使我们能够在公开的 WAT 评估基准和其他标准评估基准上获得明显改善的结果。

Aug, 2020

印度语到印度语的多语言神经机器翻译系统

本文构建了 Indic-to-Indic 机器翻译模型，并且考察了语言相关性、借用相关语言以及不同语系对模型效率的影响，结果发现，使用相关语言对 WI 语系是有益的，而对 EI 语系可能是有害的，对 DR 语系影响不明确，但对 EN-IL 模型是有用的，并且转译还有助于提高模型的性能。

Jun, 2023

PMIndia -- 印度语言平行语料库集合

本研究提供了一个新的公开平行语料库（PMIndia），其中包含 13 种主要印度语言和英语的成对平行句子，每种语言对包含高达 56000 个句子。该语料库的构建及两种不同自动句子对齐方法的评估被描述，同时还介绍了该语料库在 NMT 方面的一些初步结果。

Jan, 2020

MATra：一种印度文字跨语言注意力音译系统

本文展示了一种基于 transformer 网络结构并在其基础上做出改进的多语言模型，可用于跨越英语、印地语、孟加拉语、卡纳达语和泰米尔语的任意一对语言之间进行 Transliteration，同时在精度方面显著优于所有现有模型，在 Top-1 精度得分方面高达 80.7％，比最好的结果提高了 29.5％，并在语音准确性方面达到了 93.5％。

Aug, 2022

IndicGenBench：用于评估 LLMs 在印度语言上的生成能力的多语言基准测试

印度是一个拥有 14 亿人口的语言多样性国家，为了促进多语言大型语言模型的研究和评估，我们发布了 IndicGenBench，这是一个覆盖 13 种脚本、4 种语系以及 29 种印度语言的最大基准。我们对包括 GPT-3.5、GPT-4、PaLM-2、mT5、Gemma、BLOOM 和 LLaMA 在内的各种大型语言模型在 IndicGenBench 上的表现进行了评估，结果显示多数任务中表现最好的是最大的 PaLM-2 模型，但与英语相比，所有语言都存在显著的性能差距，因此我们需要进一步的研究来开发更具包容性的多语言语言模型。

Apr, 2024

Indic-Transformers: 基于 Transformer 模型的印度语言模型分析

该研究通过对 Hindi、Bengali 和 Telugu 语言进行广泛实验，评估了基于 Transformer 架构的语言模型在印度语言上的性能，发现 Fine-tuning 预训练模型参数比从头训练语言模型更有效，而数据集大小与模型性能之间的严格依赖关系需要被探讨。最终，在文本分类任务中实现了 Hindi 和 Bengali 语言的最新技术水平，并提出了处理印度语言建模问题的有效策略。

Nov, 2020

VAKTA-SETU: 一种选择印度语言的语音到语音机器翻译服务

本文介绍了面向英 - 印度语、英 - 马拉缇语和印度 - 马拉缇语语言对的部署就绪的语音 - to 语音机器翻译（SSMT）系统，该系统通过级联自动语音识别（ASR）、行话校正（DC）、机器翻译（MT）和文本 - to 语音合成（TTS）模型进行开发。

May, 2023