Mar, 2024

DiaHalu: 大型自然语言模型的对话级幻觉评估基准

TL;DR这项研究提出 DiaHalu,这是我们所知的第一个基于对话级别的幻觉评估基准。我们整合了收集的主题,促进了两个 ChatGPT3.5 之间的对话,并对不符合人类语言约定的内容进行手动修改,然后再由语言模型重新生成,模拟真实的人机互动场景。DiaHalu 覆盖了四个常见的多轮对话领域和五个幻觉亚类,从事实和忠实度幻觉进行扩展。在该数据集上,一些知名的大型语言模型和检测方法的实验证明 DiaHalu 是一个具有挑战性的基准,对进一步的研究具有重要价值。