HaluEval-Wild: 评估野外语言模型的幻觉
这项研究提出 DiaHalu,这是我们所知的第一个基于对话级别的幻觉评估基准。我们整合了收集的主题,促进了两个 ChatGPT3.5 之间的对话,并对不符合人类语言约定的内容进行手动修改,然后再由语言模型重新生成,模拟真实的人机互动场景。DiaHalu 覆盖了四个常见的多轮对话领域和五个幻觉亚类,从事实和忠实度幻觉进行扩展。在该数据集上,一些知名的大型语言模型和检测方法的实验证明 DiaHalu 是一个具有挑战性的基准,对进一步的研究具有重要价值。
Mar, 2024
基于大型语言模型的幻觉评估框架 (HaELM) 提出了对当前大视觉 - 语言模型 (LVLMs) 进行幻觉评估的方法,并分析了导致幻觉的因素,并提供了缓解幻觉问题的建议。
Aug, 2023
大规模视觉语言模型(LVLMs)的幻觉问题是当前研究的主要关注领域,本研究提出了一种用于评估幻觉质量的基准测量框架(HQM),通过可靠性和有效性的指标对现有幻觉基准进行评估,并构建了一种高质量的 LVLMs 幻觉基准(HQH)。研究在多个代表性 LVLMs 模型上进行了广泛评估,揭示了现有模型中存在的幻觉问题。
Jun, 2024
在这篇论文中,我们建立了一个名为 HalluQA 的基准,用于衡量中文大型语言模型中的幻觉现象。HalluQA 包含 450 个精心设计的对抗性问题,涵盖多个领域,并考虑了中国的历史文化、习俗和社会现象。我们在构建 HalluQA 过程中考虑了两种类型的幻觉:模仿性虚假和事实错误,并基于 GLM-130B 和 ChatGPT 构建对抗样本。为了评估,我们使用 GPT-4 设计了一种自动评估方法来判断模型输出是否存在幻觉。我们对 24 个大型语言模型进行了广泛实验,包括 ERNIE-Bot、Baichuan2、ChatGLM、Qwen、SparkDesk 等。在这 24 个模型中,有 18 个实现了低于 50% 的非幻觉率。这表明 HalluQA 具有很高的挑战性。我们分析了不同类型模型中主要类型的幻觉及其原因。此外,我们讨论了不同类型模型应优先考虑哪些类型的幻觉。
Oct, 2023
该论文介绍了幻觉排行榜,一个旨在定量衡量和比较每个模型产生幻觉倾向的开放性倡议,通过一系列综合评估模型的基准测试,如准确性和忠实度等方面,涵盖了问答、摘要和阅读理解等不同任务,为研究人员和实践者指导选择最可靠的模型。
Apr, 2024
该研究提出了一种包括事件妄想在内的妄想细分分类方法,并利用高级视觉语言模型生成和过滤各类妄想数据,在通用评估框架中集成鉴别和生成式评估方法,从而评估大规模视觉语言模型处理妄想的能力,为评估妄想提供了可靠而全面的工具。
Feb, 2024
介绍了一个自动可扩展的框架,将大型语言模型(LLM)的幻觉倾向与高效的幻觉检测相结合,提供了测试和改进 LLMs 的机会,并有潜力生成特定领域的基准数据集。
Feb, 2024
我们开发了一个无约束幻觉生成评估 (UHGEval) 基准测试,用于编译 LLMs 产生的具有最小限制的输出,并建立了一个全面的基准测试评估框架,以帮助后续研究人员进行可扩展和可重复的实验,并对突出的中文语言模型和 GPT 系列模型进行了广泛实验,以获得关于幻觉挑战的专业性能洞察。
Nov, 2023
本研究引入了 Hallucination Evaluation for Large Language Models(HELMA)基准来评估 LLM 的幻觉表现,并提出了基于 ChatGPT 的取样 - 过滤框架来生成大规模的,人类标注的幻觉数据集,并指出 ChatGPT 生成幻觉的概率较大,现有的 LLM 在识别文本幻觉方面面临巨大挑战,但可通过提供外部知识或添加推理步骤来改善表现。
May, 2023
通过多个数据集和大型语言模型,包括 Llama-2,对该模型的幻觉水平进行广泛评估,并展示了我们的方法在自动检测幻觉方面的有效性,达到了 87% 的平衡准确率,而无需依赖外部知识。
Mar, 2024