Mar, 2024

BEnQA:孟加拉语和英语的问题回答与推理基准

TL;DR本研究介绍了 BEnQA 数据集,该数据集包括孟加拉国中学和高中水平的平行孟加拉语和英语考试题目。我们的数据集包含大约 5,000 个问题,涵盖了科学的多个学科,并包含事实、应用和推理类问题。我们使用平行数据集对多个大型语言模型进行了基准测试,并观察到了在孟加拉语和英语中模型之间明显的性能差异。我们还研究了一些提示方法,并发现在推理问题上更有利的是 “思考链” 提示,而在事实问题上则不太有利。我们还发现,附加英语翻译有助于用孟加拉语回答问题。我们的研究结果指向了改善孟加拉语和其他资源有限语言中大型语言模型性能的有希望的未来研究方向。