本文从表示学习的新角度解决了多模态大型语言模型中的幻觉问题,并通过引入对比学习的方法,在多个基准测试中证明了减少幻觉和提高性能的有效性。
Dec, 2023
综述着重从细致的分类及持盾人儿的划分、评估基准和减轻方式中就多模式大型语言模型(MLLMs)中产生幻觉的原因进行分析,旨在加深对 MLLMs 中幻觉的理解,并激发该领域的进一步发展。
Apr, 2024
在深度学习模型中,单一模态数据的训练容易导致假的偏见,而多模态大型语言模型(MLLMs)在综合视觉和语言模型方面展示了强大的能力。本文分析了 MLLMs 中的假偏见,揭示了当视觉模型中的偏见影响 MLLMs 中视觉和文本符号之间的对齐时,特定的测试数据模式会表现出这一问题,并通过引入 MM-SpuBench、一个全面的视觉问答(VQA)评估基准,从五个开源图像数据集中评估了现有最先进的 MLLMs。我们的研究结果显示了这些模型对于假关联的依赖性的持久存在,并强调了减轻假的偏见的新方法的迫切性。为了支持 MLLMs 的稳健性研究,我们在该网址发布了我们的 VQA 基准。
Jun, 2024
通过与大规模语言模型和数据集合作,本文分析了医学生成型问答系统中幻觉现象的问题,并提出了一种交互自我反思的方法来解决该挑战,最终实验证明该方法在幻觉减少方面优于基线模型。
Oct, 2023
该论文通过对多个大型语言模型的行为研究发现,训练数据的记忆和频率偏好是导致生成式大型语言模型产生幻觉的两个主要因素,这些模型在自然语言推断等应用任务中表现出明显的问题。
May, 2023
本文阐述了人工智能幻觉的根本原因及其在人工智能中的重要意义,并就幻觉分类进行了研究,包括机器翻译、问答系统、对话系统、摘要系统、基于大语言模型的知识图谱以及视觉问答等多个任务。同时,本研究探讨了缓解幻觉的潜在策略,旨在提高大语言模型的整体可靠性。该研究属于 HeReFaNMi(Health-Related Fake News Mitigation)项目的一部分,该项目得到 NGI Search 的慷慨支持,旨在抑制互联网上健康相关虚假新闻的传播,致力于在不断演进的人工智能技术时代保护信息传播的完整性。
Nov, 2023
通过多个数据集和大型语言模型,包括 Llama-2,对该模型的幻觉水平进行广泛评估,并展示了我们的方法在自动检测幻觉方面的有效性,达到了 87% 的平衡准确率,而无需依赖外部知识。
Mar, 2024
介绍 M-HalDetect,一个用于训练和评估幻觉检测和预防模型的多模态幻觉检测数据集。使用 Fine-grained Direct Preference Optimization 和拒绝抽样方法,成功减少了幻觉率,为视觉问题回答任务提供了重要的改进。
Aug, 2023
GPT-4V (ision) 的幻觉行为以及在视觉语言模型中的两种常见幻觉类型(偏见和干扰)的评估结果表明其存在偏见,如区域性偏见和对引导性问题的脆弱性,并揭示了现有解决方案的无效性,强调了需要新的解决方案。
我们通过探究模型生成的输入、输出和内部状态中的指标来检测大型语言模型生成中的幻觉,结果表明这些指标在幻觉生成和非幻觉生成之间存在差异,我们进一步通过训练二分类器使用这些指标作为输入特征来将模型生成划分为幻觉和非幻觉,此二分类器的 AUROC 值达到 0.80,并且我们展示了先前的幻觉中的令牌可以预测随后的幻觉。