大规模视觉语言模型中的幻觉评估和分析
通过对大型视觉语言模型的系统研究,本论文发现大型视觉语言模型容易出现物体幻影问题,并探讨了视觉指导对幻觉的影响,提出了一种改进的评估方法POPE,以更稳定和灵活的方式评估物体幻影问题。
May, 2023
通过综合调查,我们分析了大型视觉语言模型(LVLMs)中的幻觉问题,以建立一个概览并为未来的缓解工作提供帮助。调查包括对LVLMs中幻觉的概念澄清、幻觉症状的多样性及存在的挑战、以及评估LVLMs幻觉的基准和方法论的概述。此外,我们深入研究了这些幻觉的根本原因,包括对训练数据和模型组件的认知。我们还对缓解幻觉的现有方法进行了批判性回顾,并讨论了关于LVLMs中幻觉的未解问题和未来研究方向。
Feb, 2024
该研究提出了一种包括事件妄想在内的妄想细分分类方法,并利用高级视觉语言模型生成和过滤各类妄想数据,在通用评估框架中集成鉴别和生成式评估方法,从而评估大规模视觉语言模型处理妄想的能力,为评估妄想提供了可靠而全面的工具。
Feb, 2024
大型视觉语言模型(LVLMs)在生成看似可信但事实上不正确的输出时存在幻觉问题,这损害了它们的可靠性。为了解决这些问题,我们介绍了一个多维度的评估基准和基于大型语言模型(LLM)的两阶段评估框架,通过对现有LVLMs进行实验,证明了我们的评估方法比现有工作更全面、与人类更相关,并且强调了在保持输出信息性的同时解决LVLMs中的幻觉问题的关键平衡。
Apr, 2024
综述着重从细致的分类及持盾人儿的划分、评估基准和减轻方式中就多模式大型语言模型(MLLMs)中产生幻觉的原因进行分析,旨在加深对MLLMs中幻觉的理解,并激发该领域的进一步发展。
Apr, 2024
大规模视觉语言模型(LVLMs)的幻觉问题是当前研究的主要关注领域,本研究提出了一种用于评估幻觉质量的基准测量框架(HQM),通过可靠性和有效性的指标对现有幻觉基准进行评估,并构建了一种高质量的LVLMs幻觉基准(HQH)。研究在多个代表性LVLMs模型上进行了广泛评估,揭示了现有模型中存在的幻觉问题。
Jun, 2024
当面临以前产生的幻觉相关查询时,大型视觉-语言模型 (LVLMs) 会受到幻觉的影响而做出错误响应吗?这篇论文提出了一个评估LVLMs行为的框架,结果显示开源 LVLMs 的性能下降了至少 31%,进一步提出了一个名为 Residual Visual Decoding 的无需训练的方法来缓解多模态幻觉扩散现象。
Jun, 2024
本研究针对大型视觉语言模型(LVLMs)在多语言场景下产生幻觉的问题进行了首次探索,指出该现象比英语环境下更为严重。提出了一种双阶段的多语言幻觉去除框架,通过跨语言对齐方法优化模型输出,显著提高了13种语言的准确率,平均提高19.0%。
Aug, 2024
本研究解决了多模态大语言模型(MLLMs)在生成与图像不一致的文本响应时的幻觉现象。提出的LongHalQA是一种无需LLM的幻觉基准,包含6000个复杂幻觉文本,采用与真实场景匹配的方式进行评估,且引入了新的任务以提高评估的可靠性和效率。研究结果揭示了处理长文本数据时MLLMs面临的新挑战,具有重要的应用价值。
Oct, 2024
本研究旨在解决大型视觉语言模型(LVLM)中幻觉现象所带来的实际问题。通过综述LVLM的背景、结构以及幻觉产生的主要原因,评估当前的幻觉纠正与减轻工作,并提出未来研究方向,以增强LVLM的可靠性与实用性。研究揭示了幻觉现象对LVLM效能的限制,并强调了提升用户体验的潜在影响。
Oct, 2024