- MMArondight:使用自动生成的多模态越狱提示对大型视觉语言模型进行红队演练
利用 Large Vision Language Models (VLMs) 来增强和扩展 Large Language Models (LLMs) 的感知能力,引发了对生成有害内容的安全和伦理问题的关注。为了解决这一问题,我们引入了专门为 - ACL视觉语言模型中的多物体幻觉
大规模视觉语言模型(LVLMs)在对象幻觉方面经常遇到困难,会产生图像中不存在的对象。本研究系统地调查了多对象幻觉,在同时关注多个对象任务时,模型如何错误地理解(如发明不存在的对象或分心)。我们引入了基于识别的对象探针评估(ROPE),这是 - Video-STaR:利用自训练实现任意监督下的视频指导调优
通过视频自我训练方法(Video-STaR)将具有多样标签和监督的视频数据集集成到大型视觉语言模型(LVLMs)中,以提高其性能,并展示在一般视频问答和下游任务中的改进效果。
- MedVH:面向医学环境中大型视觉语言模型的幻觉系统评估
大视觉语言模型(LVLMs)在自然图像和文本数据的各种任务中取得了卓越的性能,在 LVLMs 微调和训练方面引发了大量研究。尽管有所进展,但对这些模型在小型数据集上微调时对幻觉的稳健性的研究非常有限。本研究引入了一个新的基准数据集,即医学视 - D-Rax: 基于多模态数据和专家模型预测的特定领域放射助手
通过对 CXR 图像的对话分析,我们在卫生保健领域中提出了 D-Rax,它是一种领域特定的、会话式的、放射学辅助工具,可以为放射科报告提供全面的医学成像见解,帮助准确诊断,通过结合最先进的诊断模型和 VLMs 的能力,D-Rax 赋予临床医 - MedThink:通过思考减少幻觉的诱导医学大规模视觉语言模型
通过模拟人类认知过程构建细粒度指导对,应用推理场景中的 “思路链” 概念到训练场景,提出了名为 MedThink 的方法,该方法针对医学领域显著改善了医学图像报告生成任务中模型的性能,并大幅减轻了虚构现象。
- 通过双模式对抗启示破解视觉语言模型
利用 Bi-Modal Adversarial Prompt Attack 方法,通过优化文字和视觉提示共同实施监狱突破攻击,大幅提高攻击成功率。
- 利用图像理解的自我训练增强大型视觉语言模型
采用自我训练方法提高大型视觉语言模型在图像理解方面的能力,通过自动生成偏好图像描述来构建图像理解的偏好数据集,利用少量的现有数据进行自我改进,验证了其在七个不同基准测试中的有效性和潜力。
- MetaToken: 通过元分类检测图像描述中的虚构
通过引入 MetaToken,该研究提出了一种轻量级二元分类器来在低成本下检测大规模视觉语言模型中的幻觉,揭示了之前研究中忽视的 LVLMs 幻觉的关键因素,并在四个最先进的 LVLM 上进行了评估,证明了该方法的有效性。
- 不忘初心:大规模视觉语言模型的关注力视觉校准
通过 Attentional Vision Calibration (AVC) 技术,针对 Large Vision Language Models (LVLMs) 中出现的盲目令牌(blind tokens)引发的视觉对象细节理解问题,通 - RITUAL:随机图像变换作为 LVLM 中的通用抗幻觉杠杆
最近,大型视觉语言模型(LVLMs)的前沿发展彻底改变了机器基于视觉输入理解和生成文本响应的方式。然而,尽管这些模型的能力令人印象深刻,它们经常产生与视觉信息不符的 “幻觉性” 输出,给可靠性和可信度带来了挑战。当前的方法(如对比解码)在解 - 通过精细的人工智能反馈检测和缓解大型视觉语言模型中的幻觉
通过细粒度人工智能反馈,检测和减轻大规模视觉语言模型中的幻觉现象。通过生成小规模句子级幻觉注释数据集和使用检测 - 重写流程来自动构建偏好数据集,进一步区分幻觉的严重程度,将幻觉严重程度纳入偏好学习来减轻大规模视觉语言模型中的幻觉。广泛实验 - ECOR:面向目标识别的可解释 CLIP
在本研究中,我们通过给对象识别任务中的大视觉语言模型(VLMs)提供可解释性的数理定义(基于类别和原因的联合概率分布),以一种可解释的方式对 CLIP 进行微调,从而在解释性分类方面展现了最先进的性能,尤其在零样本设置下表现出了它的适应性, - HOI-Ref:基于主体视角的手 - 物体交互引用
我们提出了一种基于大规模视觉语言模型(VLMs)的 HOI-Ref 任务,该任务旨在使用 VLMs 理解自我中心图像中手和物体之间的交互。通过我们精心制作的 HOI-QA 数据集,我们训练了第一个用于 HOI-Ref 的 VLM,称为 VL - 利用大型语言和视觉模型通过程序生成的三维场景表示探索未知环境的机器人
利用大型语言模型(LLMs)和大型视觉语言模型(LVLMs)的能力,本研究提出了一个综合框架,模仿人类认知以实现对象目标导航问题的解决,通过关注、感知和存储任务特定信息,并生成相应计划。为了有效表示机器人周围的环境,提出使用语义丰富的 3D - CVPRSC-Tune:解锁大型视觉语言模型中的自洽参考理解
我们介绍了 LVLM 的自一致能力和新颖的自一致调整范式 (SC-Tune),证明了 SC-Tune 显著提升了目标级别视觉语言基准的性能,并在图像级视觉语言基准上保持了竞争力或改进的性能。
- Griffon v2: 提升高分辨率缩放和视觉语言共识的多模态感知
Griffon v2, a high-resolution generalist model, overcomes image resolution limitations in large vision language models t - 大型视觉语言模型中评估和缓解数字幻觉:一种一致性视角
通过建立数据集和使用评估指标,我们发现大规模视觉语言模型中存在数量幻觉的普遍问题,并从内部和外部一致性问题的角度进行了深入分析。我们提出了一种一致性训练方法来减轻这种幻觉,与直接微调方法相比,其平均改善了 8%。
- 大型视觉语言模型的图像推理与描述的认知评估基准
通过使用具有丰富语义的图像,我们提出了一种新的评估基准,评估大规模视觉语言模型(LVLMs)的高级认知能力。该基准定义了八种推理能力,并包括图像描述任务和视觉问答任务。我们对知名的 LVLMs 进行评估发现,LVLMs 与人类之间的认知能力 - Hal-Eval: 一个用于大型视觉语言模型的通用且精细的幻觉评估框架
该研究提出了一种包括事件妄想在内的妄想细分分类方法,并利用高级视觉语言模型生成和过滤各类妄想数据,在通用评估框架中集成鉴别和生成式评估方法,从而评估大规模视觉语言模型处理妄想的能力,为评估妄想提供了可靠而全面的工具。