Jun, 2024

DefAn: LLMs 幻觉评估的确定性答案数据集

TL;DR这篇论文介绍了一份包含超过 75,000 个提示的详尽基准数据集,用于评估大型语言模型(LLMs)的性能,揭示了虚构产生率、提示错位产生率和一致性等方面的实验结果,并证明了数据集的有效性和作为 LLMs 性能评估综合基准的重要性。