Nov, 2023
UHGEval:通过无约束生成对中国大型语言模型的幻觉进行基准测试
UHGEval: Benchmarking the Hallucination of Chinese Large Language Models
via Unconstrained Generation
TL;DR我们开发了一个无约束幻觉生成评估(UHGEval)基准测试,用于编译LLMs产生的具有最小限制的输出,并建立了一个全面的基准测试评估框架,以帮助后续研究人员进行可扩展和可重复的实验,并对突出的中文语言模型和GPT系列模型进行了广泛实验,以获得关于幻觉挑战的专业性能洞察。