Nov, 2023

UHGEval:通过无约束生成对中国大型语言模型的幻觉进行基准测试

TL;DR我们开发了一个无约束幻觉生成评估 (UHGEval) 基准测试,用于编译 LLMs 产生的具有最小限制的输出,并建立了一个全面的基准测试评估框架,以帮助后续研究人员进行可扩展和可重复的实验,并对突出的中文语言模型和 GPT 系列模型进行了广泛实验,以获得关于幻觉挑战的专业性能洞察。