Jun, 2024

RepLiQA:用于评估LLMs在未见参考内容上的问答数据集

TL;DR通过介绍一个名为RepLiQA的新测试数据集,本研究试图解决使用互联网数据进行大型语言模型评估时可能出现的问题,并通过对各种型号和规模的模型进行基准测试,揭示它们在不同情境条件下的性能差异。