IndicXTREME：用于评估印度语言的多任务基准

Dec, 2022

IndicXTREME：用于评估印度语言的多任务基准

IndicXTREME: A Multi-Task Benchmark For Evaluating Indic Languages

Sumanth Doddapaneni, Rahul Aralikatte, Gowtham Ramesh, Shreya Goyal, Mitesh M. Khapra...

TL;DR本文介绍了 IndicXTREME，一个由 9 个不同任务组成的基准测试，包括来自印度次大陆、属于 4 个不同语系的 18 种语言。我们更新和扩展了 IndicCorp，提供了 IndicBERT v2，并证明了它优于现有的多语言语言模型，如 XLM-R 和 MuRIL。

Abstract

In this work, we introduce indicxtreme, a benchmark consisting of nine diverse tasks covering 18 languages from the Indic sub-continent belonging to four different families. Across languages and tasks,

indic languages benchmark pretrained language models indiccorp indicxtreme

发现论文，激发创造

XTREME: 用于评估跨语言通用化的大规模多语言多任务基准数据集

该论文介绍了一个名为 XTREME 的跨语言多任务基准测试，它可以在 40 种语言和 9 个任务上评估多语言表示的跨语言泛化能力，研究表明，跨语言模型在句法和句子检索任务上的性能仍有相当大的差距，该基准测试旨在促进跨语言学习方法的研究。

Mar, 2020

IndicXNLI: 评估印度语言的多语言推理

本文介绍了 IndicXNLI，一个 NLI 数据集，用于 11 种印度语言的跨语言转移技术的分析，研究了不同的预训练模型、语言、多语言和混合语言输入等因素对预训练模型的行为的影响。

Apr, 2022

IndicGenBench：用于评估 LLMs 在印度语言上的生成能力的多语言基准测试

印度是一个拥有 14 亿人口的语言多样性国家，为了促进多语言大型语言模型的研究和评估，我们发布了 IndicGenBench，这是一个覆盖 13 种脚本、4 种语系以及 29 种印度语言的最大基准。我们对包括 GPT-3.5、GPT-4、PaLM-2、mT5、Gemma、BLOOM 和 LLaMA 在内的各种大型语言模型在 IndicGenBench 上的表现进行了评估，结果显示多数任务中表现最好的是最大的 PaLM-2 模型，但与英语相比，所有语言都存在显著的性能差距，因此我们需要进一步的研究来开发更具包容性的多语言语言模型。

Apr, 2024

IndicIRSuite：印度语言的多语种数据集和神经信息模型

该论文介绍了为 11 种广泛使用的印度语言（阿萨姆语、孟加拉语、古吉拉特语、印地语、卡纳达语、马拉雅拉姆语、马拉地语、奥利亚语、旁遮普语、泰米尔语和特鲁古语）引入神经信息检索资源的工作。这些资源包括使用机器翻译创建的 11 种印度语言版本的 MSMARCO 数据集（称为 INDIC-MARCO）以及 11 种不同的单语神经信息检索模型集合（称为 Indic-ColBERT），每个模型都在 INDIC-MARCO 数据集中的一种语言上进行训练。IndicIRSuite 是为大量印度语言构建大规模神经信息检索资源的首次尝试，我们希望它能加速印度语言神经信息检索的研究。实验证明，与 INDIC-MARCO 基线相比，Indic-ColBERT 在除奥利亚语外的所有 11 种印度语言上的 MRR@10 得分平均改进了 47.47%，在 MIRACL 孟加拉语和印地语基线上的 NDCG@10 得分平均改进了 12.26%，在 Mr.Tydi 孟加拉语基线上的 MRR@100 得分改进了 20%。IndicIRSuite 可以在此 https URL 上获取。

Dec, 2023

IndicNLG 基准：印度语言中多样化自然语言生成任务的多语言数据集

本文介绍 IndicNLG 基准，一个用于评估 11 种 Indic 语言的自然语言生成的数据集集合，包括人物传记生成、新闻标题生成、句子摘要、改写生成和问题生成等 5 个不同的任务，使用预训练序列到序列模型和多语言基线来评估性能，并表明多语言特定预训练模型的强大性能和我们数据集训练的模型对其他相关 NLG 任务的实用性。

Mar, 2022

XTREME-R: 朝着更具挑战性和细致多语言评估迈进

本文研究运用机器学习技术进行多语言自然语言处理的现状，通过对 XTREME-R 的介绍和使用提出跨语言转移学习的方法，并提供一个交互式公共排行榜和 XTREME-R 的代码以拓展其应用领域。

Apr, 2021

XTREME-S: 评估跨语言语音表示

该文章介绍了新的 XTREME-S 基准测试，其涉及语音识别，分类，语音到文本翻译和检索四大任务类别。该基准测试覆盖了 10 多种语言家族的 102 种语言与 3 个不同领域和 4 个任务家族，旨在简化多语言语音表示评估，并以 XLS-R 和 mSLAM 在所有下游任务中建立了第一个仅语音和语音文本基线。同时该基准测试旨在推动对 “通用” 的语音表示学习的研究，数据集和微调脚本可在提供的网址进行访问。

Mar, 2022

IndicTrans2：适用于所有 22 个印度预定语言的高质量可访问机器翻译模型

该研究旨在通过整合并创建特定于印度的并行语料库和基准测试数据，训练出支持所有 22 种印度语言的机器翻译模型，为印度的语言多样性提供广泛且易于访问的机器翻译系统，该研究创造性地提出了四个关键领域的改进，并发布了 BPCC 和 IndicTrans2 等数据资源和模型。

May, 2023

LEXTREME：法律领域的多语言和多任务基准

使用 Transformer 架构的进步，促进了法律 NLP 领域的发展。为了评估其发展，需要有好的基准数据集。但是目前大部分基准数据集只有英文，而且其中缺少多语言数据集。为此，作者选择了 11 个涵盖 24 种语言的数据集，并创建了 LEXTREME。该工作提出了两种聚合得分，一种基于数据集，一种基于语言。最佳基线模型（XLM-R large）的数据集聚合得分和语言聚合得分均为 61.3，表明 LEXTREME 仍具有很高的挑战难度。为了方便研究人员和从业者使用，作者将 LEXTREME 公开在了 huggingface 并提供了所有用于评估模型的代码以及包括所有运行结果的 public Weights and Biases 项目。

Jan, 2023

IndicSUPERB：印度语言语音处理通用性能基准

该篇论文主要介绍了自然语言理解和语音语言理解中使用的 GLUE 数据集和 SUPERB 基准集，同时提供了 IndicSUPERB 基准集，为印度语音语言理解模型的开发做出贡献。该论文探讨了使用自我监督模型在各种印度语言中进行的训练和评估，证明了 Self-supervised 模型在语言识别任务中的优势。

Aug, 2022