DiaHalu: 大型自然语言模型的对话级幻觉评估基准

Mar, 2024

DiaHalu: 大型自然语言模型的对话级幻觉评估基准

DiaHalu: A Dialogue-level Hallucination Evaluation Benchmark for Large Language Models

Kedi Chen, Qin Chen, Jie Zhou, Yishen He, Liang He

TL;DR这项研究提出 DiaHalu，这是我们所知的第一个基于对话级别的幻觉评估基准。我们整合了收集的主题，促进了两个 ChatGPT3.5 之间的对话，并对不符合人类语言约定的内容进行手动修改，然后再由语言模型重新生成，模拟真实的人机互动场景。DiaHalu 覆盖了四个常见的多轮对话领域和五个幻觉亚类，从事实和忠实度幻觉进行扩展。在该数据集上，一些知名的大型语言模型和检测方法的实验证明 DiaHalu 是一个具有挑战性的基准，对进一步的研究具有重要价值。

Abstract

Since large language models (LLMs) achieve significant success in recent years, the hallucination issue remains a challenge, numerous benchmarks are proposed to detect the →

large language models hallucination dialogue-level evaluation benchmark diahalu

发现论文，激发创造

HalluDial: 自动对话层次的大规模幻觉评估基准

提出 HalluDial，这是首个用于自动对话级幻觉评估的综合大规模基准测试。HalluDial 包含了以上文提到的内容，并包括了分为自发和感应性的幻觉情景，并涵盖了实际性幻觉和忠实性幻觉。

Jun, 2024

HaluEval-Wild: 评估野外语言模型的幻觉

为了评估大规模语言模型 (LLMs) 在动态的现实世界环境中产生幻觉的能力，我们引入了 HalEval-Wild，这是一个特别设计的评估幻觉的基准测试。通过收集现有的用户 - LLM 交互数据集中具有挑战性的用户查询，并使用强大的 GPT-4 模型和检索增强生成 (RAG) 进行参考答案综合，我们对 LLMs 产生的幻觉进行了细致的分析，从而提供了一种改善 LLM 可靠性的新方法。

Mar, 2024

HELMA: 面向大型语言模型的大规模幻想评估基准测试

本研究引入了 Hallucination Evaluation for Large Language Models（HELMA）基准来评估 LLM 的幻觉表现，并提出了基于 ChatGPT 的取样 - 过滤框架来生成大规模的，人类标注的幻觉数据集，并指出 ChatGPT 生成幻觉的概率较大，现有的 LLM 在识别文本幻觉方面面临巨大挑战，但可通过提供外部知识或添加推理步骤来改善表现。

May, 2023

ToolBeHonest: 一个多层次幻觉诊断基准测试工具，用于帮助扩展的大型语言模型

通过引入综合诊断基准 ToolBH，评估工具增强型大型语言模型 (LLMs) 的幻觉问题，考虑深度和广度两个维度，通过多层次的诊断流程和三种场景进行评估，结果显示 ToolBH 基准的挑战性，更大的模型参数并不保证更好的性能，训练数据和响应策略也至关重要，在模型错误中，主要原因是任务可解性的评估，开放权重模型在冗长回复中性能下降，而专有模型在更长推理中表现出色。

Jun, 2024

大规模视觉语言模型中的幻觉评估和分析

基于大型语言模型的幻觉评估框架 (HaELM) 提出了对当前大视觉 - 语言模型 (LVLMs) 进行幻觉评估的方法，并分析了导致幻觉的因素，并提供了缓解幻觉问题的建议。

Aug, 2023

HypoTermQA: 用于评估 LLMs 产生假设性术语倾向的假设性术语数据集

介绍了一个自动可扩展的框架，将大型语言模型（LLM）的幻觉倾向与高效的幻觉检测相结合，提供了测试和改进 LLMs 的机会，并有潜力生成特定领域的基准数据集。

Feb, 2024

黑暗之后的黎明：大型语言模型中的事实错觉的实证研究

在大型语言模型时代，幻觉（即生成事实不准确的内容）对于在现实应用中可信可靠地部署语言模型构成了巨大的挑战。为了解决语言模型幻觉问题，本研究对幻觉检测、幻觉来源和幻觉缓解这三个重要问题进行了系统的实证研究。研究通过构建一个新的幻觉基准 HalualEval 2.0，设计了一种简单而有效的语言模型幻觉检测方法，并深入分析了导致语言模型幻觉的潜在因素。最后，研究实施并检验了一系列常用的技术来缓解语言模型中的幻觉。本研究的工作为理解幻觉的起源以及缓解语言模型中的幻觉问题提供了重要发现。

Jan, 2024

评估用于大型视觉语言模型的幻觉基准的质量

大规模视觉语言模型（LVLMs）的幻觉问题是当前研究的主要关注领域，本研究提出了一种用于评估幻觉质量的基准测量框架（HQM），通过可靠性和有效性的指标对现有幻觉基准进行评估，并构建了一种高质量的 LVLMs 幻觉基准（HQH）。研究在多个代表性 LVLMs 模型上进行了广泛评估，揭示了现有模型中存在的幻觉问题。

Jun, 2024

KnowHalu：基于多形式知识的事实检查的幻觉检测

KnowHalu 是一种新颖的方法，用于检测大规模语言模型（LLMs）生成的文字中的幻觉，利用逐步推理、多阶段问题形式、多形式知识进行事实检查以及基于融合的检测机制。

Apr, 2024

Med-HALT：大型语言模型医学领域幻变测试

这篇研究论文关注于大型语言模型在医疗领域中所带来的幻觉挑战。通过提出一个新的基准和数据集（Med-HALT），该研究评估了几种先进的语言模型，并揭示了它们之间的显著差异。这项工作旨在为医疗保健中的语言模型的开发做出贡献，提高其安全性和可靠性。

Jul, 2023