一种适用于 MLLMs 幻觉评估的无 LLM 多维基准

Nov, 2023

一种适用于 MLLMs 幻觉评估的无 LLM 多维基准

An LLM-free Multi-dimensional Benchmark for MLLMs Hallucination Evaluation

Junyang Wang, Yuhang Wang, Guohai Xu, Jing Zhang, Yukai Gu...

TL;DR本研究使用 AMBER 多维度基准评估模型生成任务和判别任务中的多模态语言模型 (Multi-modal Large Language Models, MLLMs) 存在的幻觉问题，并对主流 MLLMs 进行全面评估和详细分析，并提出减轻幻觉问题的指导建议。

Abstract

Despite making significant progress in multi-modal tasks, current multi-modal Large Language Models (mllms) encounter the significant chal

multi-modal hallucination mllms evaluation amber

发现论文，激发创造

多模态大型语言模型的统一幻觉检测

多模态大语言模型（MLLMs）在全方位任务中取得了显著进展，但幻觉问题成为其关键问题之一。我们的研究扩展了对幻觉检测的调查范围，并提出了一个新颖的元评估基准（MHaluBench），以促进幻觉检测方法的发展。我们还推出了一个新颖的统一多模态幻觉检测框架（UNIHD），利用一套辅助工具来强化幻觉检测的有效性，并提供了针对不同幻觉类别的工具应用战略见解。

Feb, 2024

评估用于大型视觉语言模型的幻觉基准的质量

大规模视觉语言模型（LVLMs）的幻觉问题是当前研究的主要关注领域，本研究提出了一种用于评估幻觉质量的基准测量框架（HQM），通过可靠性和有效性的指标对现有幻觉基准进行评估，并构建了一种高质量的 LVLMs 幻觉基准（HQH）。研究在多个代表性 LVLMs 模型上进行了广泛评估，揭示了现有模型中存在的幻觉问题。

Jun, 2024

多模态大型语言模型的幻觉：一项调查

综述着重从细致的分类及持盾人儿的划分、评估基准和减轻方式中就多模式大型语言模型（MLLMs）中产生幻觉的原因进行分析，旨在加深对 MLLMs 中幻觉的理解，并激发该领域的进一步发展。

Apr, 2024

HaluEval-Wild: 评估野外语言模型的幻觉

为了评估大规模语言模型 (LLMs) 在动态的现实世界环境中产生幻觉的能力，我们引入了 HalEval-Wild，这是一个特别设计的评估幻觉的基准测试。通过收集现有的用户 - LLM 交互数据集中具有挑战性的用户查询，并使用强大的 GPT-4 模型和检索增强生成 (RAG) 进行参考答案综合，我们对 LLMs 产生的幻觉进行了细致的分析，从而提供了一种改善 LLM 可靠性的新方法。

Mar, 2024

大规模视觉语言模型中的幻觉评估和分析

基于大型语言模型的幻觉评估框架 (HaELM) 提出了对当前大视觉 - 语言模型 (LVLMs) 进行幻觉评估的方法，并分析了导致幻觉的因素，并提供了缓解幻觉问题的建议。

Aug, 2023

使用大型视觉语言模型检测和评估医学幻觉

为了检测和评估 LVLMs 的幻觉，我们引入了 Med-HallMark，这是第一个专门设计用于医学多模态领域中的幻觉检测和评估的基准。我们提出了 MediHall Score 评价指标，并介绍了 MediHallDetector，一个用于准确检测幻觉的新型医学 LVLM。通过实验评估，我们建立了使用我们的基准的热门 LVLMs 的基准值，结果表明 MediHall Score 相对于传统指标提供了对幻觉影响更丰富的理解，并展示了 MediHallDetector 的改进性能。我们希望这项工作能显著提高 LVLMs 在医学应用中的可靠性。

Jun, 2024

Hal-Eval: 一个用于大型视觉语言模型的通用且精细的幻觉评估框架

该研究提出了一种包括事件妄想在内的妄想细分分类方法，并利用高级视觉语言模型生成和过滤各类妄想数据，在通用评估框架中集成鉴别和生成式评估方法，从而评估大规模视觉语言模型处理妄想的能力，为评估妄想提供了可靠而全面的工具。

Feb, 2024

ToolBeHonest: 一个多层次幻觉诊断基准测试工具，用于帮助扩展的大型语言模型

通过引入综合诊断基准 ToolBH，评估工具增强型大型语言模型 (LLMs) 的幻觉问题，考虑深度和广度两个维度，通过多层次的诊断流程和三种场景进行评估，结果显示 ToolBH 基准的挑战性，更大的模型参数并不保证更好的性能，训练数据和响应策略也至关重要，在模型错误中，主要原因是任务可解性的评估，开放权重模型在冗长回复中性能下降，而专有模型在更长推理中表现出色。

Jun, 2024

LLM 动力编码生成中的幻觉探索与评估

通过主题分析，我们对生成的代码进行了总结和分类，建立了包括五个主要类别的幻觉的综合分类法。基于结果，我们提出了一个评估代码 LLM 性能的基准，名为 HalluCode，并通过 HalluCode 和 HumanEval 进行了幻觉识别和减轻实验，结果表明现有的 LLM 在识别幻觉方面面临巨大挑战，尤其是在识别幻觉类型方面，几乎无法减轻幻觉。我们相信我们的研究结果将为幻觉评估、检测和减轻的未来研究提供指导，为建立更有效可靠的代码 LLMs 铺平道路。

Apr, 2024

基于幻觉增强对比学习的多模态大型语言模型

本文从表示学习的新角度解决了多模态大型语言模型中的幻觉问题，并通过引入对比学习的方法，在多个基准测试中证明了减少幻觉和提高性能的有效性。

Dec, 2023