视觉去幻化指令生成
我们研究了在模拟住宅环境中生成指导人类导航的问题。我们开发了一个模型,使用对图像 - 文本对进行预训练的模型,并通过对比损失进行微调,以检测生成的虚假指令。我们的最终模型优于几个基准模型,包括使用指令生成模型估计的词概率和基于 LSTM 和 Transformer 的监督模型。
Oct, 2023
在这项研究中,我们提出了一种创新的视觉幻觉概念,称为 “我知道(IK)” 幻觉,以解决所需回答为 “我不知道” 的场景。为了有效应对这个问题,我们提出了 VQAv2-IDK 基准,这是由人类标注人员确定的不可回答的图像问题对的子集。更进一步,我们提出了用于 IK 幻觉的视觉解幻指令生成方法,并介绍了 IDK-Instructions 视觉指令数据库。我们的实验证明了当前方法在处理 IK 幻觉时存在困难,然而我们的方法有效减少了这些幻觉,证明了它在不同框架和数据集上的多功能性。
Feb, 2024
该论文提出了一种简单的、无需训练的框架,通过整合文本理解和图像生成,解决了在生成视觉指令中保持物体的一致性和平滑状态转换的问题,实验证明该方法可以生成一致且具有视觉吸引力的指令。
Jun, 2024
该研究旨在调查和减轻多模态大型语言模型中的幻觉毒性,针对机器生成的视觉指令数据集中的对象、关系和属性幻觉进行检测和消除,并通过对数据分布进行对抗因果视觉指令扩展来增强模型对幻觉的抵抗能力。
Nov, 2023
介绍 M-HalDetect,一个用于训练和评估幻觉检测和预防模型的多模态幻觉检测数据集。使用 Fine-grained Direct Preference Optimization 和拒绝抽样方法,成功减少了幻觉率,为视觉问题回答任务提供了重要的改进。
Aug, 2023
通过引入更详细的视觉注释和更具区分性的视觉模型来提高大型视觉语言模型的训练,使其能够生成更精确的回答,减少幻觉;此外,提出了新的评估基准 RAH-Bench 分为三种不同的幻觉类型,与原始 LLaVA 相比,我们的方法在该基准下实现了 +8.4% 的改进,并在其他模型上取得了广泛的性能提升。
Nov, 2023
该文介绍了一种新的方法来提高视觉问题回答的性能,该方法利用深度学习的技术,结合语言和视觉的普适性知识来生成针对特定视觉问题的图像描述,并利用在线梯度方法自动确定与问题相关的描述来训练模型,实验结果表明,本方法取得了视觉问题回答领域的最新成果。
Jun, 2019
针对当前大型视觉 - 语言模型在生成回复和相应图像之间存在的不一致问题,本研究提出了一种名为 DFTG 的有针对性的指导数据生成框架,通过诊断模型的响应和图像,生成有针对性的指导数据以减轻幻觉问题。实验结果表明,与先前的数据集相比,我们的方法生成的有针对性指导数据在减轻幻觉方面更加有效。
Apr, 2024
本文针对数据到文本生成中存在的幻觉问题,提出通过引入自信度分数及变分贝叶斯训练框架来防止生成不受原数据支持的文本,实验结果表明该方法比现有最先进的方法更加忠实于原始数据,并在 WebNLG 数据集上取得强大的表现。
Oct, 2019
通过与大规模语言模型和数据集合作,本文分析了医学生成型问答系统中幻觉现象的问题,并提出了一种交互自我反思的方法来解决该挑战,最终实验证明该方法在幻觉减少方面优于基线模型。
Oct, 2023