Jul, 2024

INDIC QA BENCHMARK:评估印度语系大语言模型问答能力的多语言基准

TL;DR为了评估大型语言模型(LLMs)在非英语语言的上下文问题回答能力,我们引入了Indic-QA,这是来自两种语言家族的11种主要印度语言的最大公开上下文问题回答数据集。该数据集包括抽取式和抽象式问题回答任务,其中既包括现有数据集,也包括翻译成印度语言的英语问题回答数据集。此外,我们使用Gemini模型生成了一个合成数据集,用于创建给定段落的问题-回答对,随后对其进行人工验证以确保质量。我们在此基准测试中评估了各种多语言大型语言模型及其指导微调变体,并观察到它们的性能相对低下,特别是对于低资源语言。我们希望该数据集的发布能够促进对大型语言模型在低资源语言上的问题回答能力的进一步研究。