HaluEval-Wild: 评估野外语言模型的幻觉

Mar, 2024

HaluEval-Wild: 评估野外语言模型的幻觉

HaluEval-Wild: Evaluating Hallucinations of Language Models in the Wild

Zhiying Zhu, Zhiqing Sun, Yiming Yang

TL;DR为了评估大规模语言模型 (LLMs) 在动态的现实世界环境中产生幻觉的能力，我们引入了 HalEval-Wild，这是一个特别设计的评估幻觉的基准测试。通过收集现有的用户 - LLM 交互数据集中具有挑战性的用户查询，并使用强大的 GPT-4 模型和检索增强生成 (RAG) 进行参考答案综合，我们对 LLMs 产生的幻觉进行了细致的分析，从而提供了一种改善 LLM 可靠性的新方法。

Abstract

hallucinations pose a significant challenge to the reliability of large language models (LLMs) in critical domains. Recent benchmarks designed to assess LLM →

hallucinations large language models benchmark user-llm interactions reliability

发现论文，激发创造

DiaHalu: 大型自然语言模型的对话级幻觉评估基准

这项研究提出 DiaHalu，这是我们所知的第一个基于对话级别的幻觉评估基准。我们整合了收集的主题，促进了两个 ChatGPT3.5 之间的对话，并对不符合人类语言约定的内容进行手动修改，然后再由语言模型重新生成，模拟真实的人机互动场景。DiaHalu 覆盖了四个常见的多轮对话领域和五个幻觉亚类，从事实和忠实度幻觉进行扩展。在该数据集上，一些知名的大型语言模型和检测方法的实验证明 DiaHalu 是一个具有挑战性的基准，对进一步的研究具有重要价值。

Mar, 2024

大规模视觉语言模型中的幻觉评估和分析

基于大型语言模型的幻觉评估框架 (HaELM) 提出了对当前大视觉 - 语言模型 (LVLMs) 进行幻觉评估的方法，并分析了导致幻觉的因素，并提供了缓解幻觉问题的建议。

Aug, 2023

评估用于大型视觉语言模型的幻觉基准的质量

大规模视觉语言模型（LVLMs）的幻觉问题是当前研究的主要关注领域，本研究提出了一种用于评估幻觉质量的基准测量框架（HQM），通过可靠性和有效性的指标对现有幻觉基准进行评估，并构建了一种高质量的 LVLMs 幻觉基准（HQH）。研究在多个代表性 LVLMs 模型上进行了广泛评估，揭示了现有模型中存在的幻觉问题。

Jun, 2024

评估中文大型语言模型中的幻觉

在这篇论文中，我们建立了一个名为 HalluQA 的基准，用于衡量中文大型语言模型中的幻觉现象。HalluQA 包含 450 个精心设计的对抗性问题，涵盖多个领域，并考虑了中国的历史文化、习俗和社会现象。我们在构建 HalluQA 过程中考虑了两种类型的幻觉：模仿性虚假和事实错误，并基于 GLM-130B 和 ChatGPT 构建对抗样本。为了评估，我们使用 GPT-4 设计了一种自动评估方法来判断模型输出是否存在幻觉。我们对 24 个大型语言模型进行了广泛实验，包括 ERNIE-Bot、Baichuan2、ChatGLM、Qwen、SparkDesk 等。在这 24 个模型中，有 18 个实现了低于 50% 的非幻觉率。这表明 HalluQA 具有很高的挑战性。我们分析了不同类型模型中主要类型的幻觉及其原因。此外，我们讨论了不同类型模型应优先考虑哪些类型的幻觉。

Oct, 2023

幻觉排行榜 - 量化大型语言模型中的幻觉

该论文介绍了幻觉排行榜，一个旨在定量衡量和比较每个模型产生幻觉倾向的开放性倡议，通过一系列综合评估模型的基准测试，如准确性和忠实度等方面，涵盖了问答、摘要和阅读理解等不同任务，为研究人员和实践者指导选择最可靠的模型。

Apr, 2024

Hal-Eval: 一个用于大型视觉语言模型的通用且精细的幻觉评估框架

该研究提出了一种包括事件妄想在内的妄想细分分类方法，并利用高级视觉语言模型生成和过滤各类妄想数据，在通用评估框架中集成鉴别和生成式评估方法，从而评估大规模视觉语言模型处理妄想的能力，为评估妄想提供了可靠而全面的工具。

Feb, 2024

HypoTermQA: 用于评估 LLMs 产生假设性术语倾向的假设性术语数据集

介绍了一个自动可扩展的框架，将大型语言模型（LLM）的幻觉倾向与高效的幻觉检测相结合，提供了测试和改进 LLMs 的机会，并有潜力生成特定领域的基准数据集。

Feb, 2024

UHGEval：通过无约束生成对中国大型语言模型的幻觉进行基准测试

我们开发了一个无约束幻觉生成评估 (UHGEval) 基准测试，用于编译 LLMs 产生的具有最小限制的输出，并建立了一个全面的基准测试评估框架，以帮助后续研究人员进行可扩展和可重复的实验，并对突出的中文语言模型和 GPT 系列模型进行了广泛实验，以获得关于幻觉挑战的专业性能洞察。

Nov, 2023

HELMA: 面向大型语言模型的大规模幻想评估基准测试

本研究引入了 Hallucination Evaluation for Large Language Models（HELMA）基准来评估 LLM 的幻觉表现，并提出了基于 ChatGPT 的取样 - 过滤框架来生成大规模的，人类标注的幻觉数据集，并指出 ChatGPT 生成幻觉的概率较大，现有的 LLM 在识别文本幻觉方面面临巨大挑战，但可通过提供外部知识或添加推理步骤来改善表现。

May, 2023

寻求真相：一种审问方法用于幻觉检测

通过多个数据集和大型语言模型，包括 Llama-2，对该模型的幻觉水平进行广泛评估，并展示了我们的方法在自动检测幻觉方面的有效性，达到了 87% 的平衡准确率，而无需依赖外部知识。

Mar, 2024