HalluDial: 自动对话层次的大规模幻觉评估基准
这项研究提出 DiaHalu,这是我们所知的第一个基于对话级别的幻觉评估基准。我们整合了收集的主题,促进了两个 ChatGPT3.5 之间的对话,并对不符合人类语言约定的内容进行手动修改,然后再由语言模型重新生成,模拟真实的人机互动场景。DiaHalu 覆盖了四个常见的多轮对话领域和五个幻觉亚类,从事实和忠实度幻觉进行扩展。在该数据集上,一些知名的大型语言模型和检测方法的实验证明 DiaHalu 是一个具有挑战性的基准,对进一步的研究具有重要价值。
Mar, 2024
为了检测和评估 LVLMs 的幻觉,我们引入了 Med-HallMark,这是第一个专门设计用于医学多模态领域中的幻觉检测和评估的基准。我们提出了 MediHall Score 评价指标,并介绍了 MediHallDetector,一个用于准确检测幻觉的新型医学 LVLM。通过实验评估,我们建立了使用我们的基准的热门 LVLMs 的基准值,结果表明 MediHall Score 相对于传统指标提供了对幻觉影响更丰富的理解,并展示了 MediHallDetector 的改进性能。我们希望这项工作能显著提高 LVLMs 在医学应用中的可靠性。
Jun, 2024
该论文提出了 AutoHall 方法,通过自相矛盾的方式自动构建模型特定的幻觉数据集,然后基于这些数据集实现了无资源和黑盒幻觉检测方法,对开源和闭源大型语言模型进行了实验证明,在幻觉检测性能上优于现有基准模型,并且发现了不同模型之间的幻觉比例和类型的差异。
Sep, 2023
为了评估大规模语言模型 (LLMs) 在动态的现实世界环境中产生幻觉的能力,我们引入了 HalEval-Wild,这是一个特别设计的评估幻觉的基准测试。通过收集现有的用户 - LLM 交互数据集中具有挑战性的用户查询,并使用强大的 GPT-4 模型和检索增强生成 (RAG) 进行参考答案综合,我们对 LLMs 产生的幻觉进行了细致的分析,从而提供了一种改善 LLM 可靠性的新方法。
Mar, 2024
基于大型语言模型的幻觉评估框架 (HaELM) 提出了对当前大视觉 - 语言模型 (LVLMs) 进行幻觉评估的方法,并分析了导致幻觉的因素,并提供了缓解幻觉问题的建议。
Aug, 2023
本研究引入了 Hallucination Evaluation for Large Language Models(HELMA)基准来评估 LLM 的幻觉表现,并提出了基于 ChatGPT 的取样 - 过滤框架来生成大规模的,人类标注的幻觉数据集,并指出 ChatGPT 生成幻觉的概率较大,现有的 LLM 在识别文本幻觉方面面临巨大挑战,但可通过提供外部知识或添加推理步骤来改善表现。
May, 2023
在大型语言模型时代,幻觉(即生成事实不准确的内容)对于在现实应用中可信可靠地部署语言模型构成了巨大的挑战。为了解决语言模型幻觉问题,本研究对幻觉检测、幻觉来源和幻觉缓解这三个重要问题进行了系统的实证研究。研究通过构建一个新的幻觉基准 HalualEval 2.0,设计了一种简单而有效的语言模型幻觉检测方法,并深入分析了导致语言模型幻觉的潜在因素。最后,研究实施并检验了一系列常用的技术来缓解语言模型中的幻觉。本研究的工作为理解幻觉的起源以及缓解语言模型中的幻觉问题提供了重要发现。
Jan, 2024
介绍了一个自动可扩展的框架,将大型语言模型(LLM)的幻觉倾向与高效的幻觉检测相结合,提供了测试和改进 LLMs 的机会,并有潜力生成特定领域的基准数据集。
Feb, 2024
通过多个数据集和大型语言模型,包括 Llama-2,对该模型的幻觉水平进行广泛评估,并展示了我们的方法在自动检测幻觉方面的有效性,达到了 87% 的平衡准确率,而无需依赖外部知识。
Mar, 2024
该论文介绍了幻觉排行榜,一个旨在定量衡量和比较每个模型产生幻觉倾向的开放性倡议,通过一系列综合评估模型的基准测试,如准确性和忠实度等方面,涵盖了问答、摘要和阅读理解等不同任务,为研究人员和实践者指导选择最可靠的模型。
Apr, 2024