L3Cube-IndicQuest:评估大型语言模型在印度背景下知识的问答基准数据集
研究跨语言建模的进展取决于具有挑战性、真实性和多样性的评估集。本文提出了一种开放领域的问题回答评估集“Multilingual Knowledge Questions and Answers”(MKQA),包括10k个问题-答案对,跨越26种语言(总计260k个问题-答案对)。结果表明,即使在英语中,这个数据集也具有挑战性,尤其是在低资源语言中。
Jul, 2020
本文介绍了IndicXNLI,一个NLI数据集,用于11种印度语言的跨语言转移技术的分析,研究了不同的预训练模型、语言、多语言和混合语言输入等因素对预训练模型的行为的影响。
Apr, 2022
为了有效评估 Large Language Models(LLMs) 使用外部工具回答问题的能力,我们开发了一个名为 ToolQA 的新数据集,并使用可伸缩的自动化过程进行数据集的管理,并使用13种专门设计的工具进行交互以回答问题。
Jun, 2023
研究表明,尽管当前大部分开放式语言模型主要面向英语或少数几种高资源语言,人们却在多种语言中使用这些模型。本文通过引入MultiQ标准测试并评估27.4k个不同语言的基本开放式问答问题,探讨了现有开放式语言模型在超越其预定用途方面的多语言能力。通过研究发现,在一些语言中,这些模型在回答问题时表现得既忠实又准确,而大多数模型在忠实于回答问题时的准确性更高,但在某些语言中模型的准确性和忠实度都较低。我们还探讨了分词对这些发现的潜在解释,发现了可能存在的相关性,值得进一步研究。
Mar, 2024
通过引入针对Indic LLMs开发的广泛资源套件,包括22种语言,总共有251亿词汇和7480万指令-响应对,我们的工作旨在弥合其他语言的类似模型建设进展受限于资源稀缺的差距。我们的方法结合了高度策划的手动验证数据、有价值但未验证的数据和合成数据,建立了一个干净的开源流水线,用于从各种来源收集预训练数据,并采用最佳实践进行爬取、清理、标记和去重。我们还通过生成多种情景的有毒提示来解决毒性对齐问题,并通过将这些有毒提示输入到经过校对的LLaMa2模型中生成非有毒响应。我们希望本工作释放的数据、工具和资源不仅能推动Indic LLMs的研究和开发,还能为将这种努力扩展到其他语言建立一个开源蓝图。作为本工作的一部分,创建的数据和其他文物都以宽松的许可证发布。
Mar, 2024
印度是一个拥有14亿人口的语言多样性国家,为了促进多语言大型语言模型的研究和评估,我们发布了IndicGenBench,这是一个覆盖13种脚本、4种语系以及29种印度语言的最大基准。我们对包括GPT-3.5、GPT-4、PaLM-2、mT5、Gemma、BLOOM和LLaMA在内的各种大型语言模型在IndicGenBench上的表现进行了评估,结果显示多数任务中表现最好的是最大的PaLM-2模型,但与英语相比,所有语言都存在显著的性能差距,因此我们需要进一步的研究来开发更具包容性的多语言语言模型。
Apr, 2024
该综述论文提供了印度语系大型语言模型(LLM)研究方向的全面概述,包括LLM的发展、现有LLM的微调、语料库的开发、基准测试和评估以及围绕特定技术、工具和应用的出版物。该论文指出了印度语系的挑战,如数据有限、缺乏标准化和语言复杂性,旨在为从事NLP领域研究工作的人员提供有价值的资源,并为这些语言的更准确、高效的LLM应用的发展做出贡献。
Jun, 2024
通过介绍CaLMQA,一个涵盖23种语言的2.6K多样化问题集,我们发现大型语言模型在生成复杂问题的长篇答案时在某些低资源语言方面的质量明显下降,这突显了LLM多语言能力和非英语长篇问题回答评估中进一步研究的需求。
Jun, 2024
提出了一个可扩展的框架NativQA,以母语构建与地域文化契合的自然问答(QA)多语种数据集MultiNativQA,为大型语言模型(LLM)的评估和调优提供支持,并通过公开配置在区域和文化特异性上对MultiNativQA数据集进行了基准测试。
Jul, 2024
为了评估大型语言模型(LLMs)在非英语语言的上下文问题回答能力,我们引入了Indic-QA,这是来自两种语言家族的11种主要印度语言的最大公开上下文问题回答数据集。该数据集包括抽取式和抽象式问题回答任务,其中既包括现有数据集,也包括翻译成印度语言的英语问题回答数据集。此外,我们使用Gemini模型生成了一个合成数据集,用于创建给定段落的问题-回答对,随后对其进行人工验证以确保质量。我们在此基准测试中评估了各种多语言大型语言模型及其指导微调变体,并观察到它们的性能相对低下,特别是对于低资源语言。我们希望该数据集的发布能够促进对大型语言模型在低资源语言上的问题回答能力的进一步研究。
Jul, 2024