Apr, 2024

IndicGenBench:用于评估LLMs在印度语言上的生成能力的多语言基准测试

TL;DR印度是一个拥有14亿人口的语言多样性国家,为了促进多语言大型语言模型的研究和评估,我们发布了IndicGenBench,这是一个覆盖13种脚本、4种语系以及29种印度语言的最大基准。我们对包括GPT-3.5、GPT-4、PaLM-2、mT5、Gemma、BLOOM和LLaMA在内的各种大型语言模型在IndicGenBench上的表现进行了评估,结果显示多数任务中表现最好的是最大的PaLM-2模型,但与英语相比,所有语言都存在显著的性能差距,因此我们需要进一步的研究来开发更具包容性的多语言语言模型。