图像中的视觉针在感知和描述的背景中很容易迷失
通过扩展语言模型的上下文长度,我们实现了视频片段中的长上下文传递,使得大型多模态模型能够理解数量级更多的视觉标记,并开发了一个纯合成的长视觉基准测试,证明了 Long Video Assistant(LongVA)在处理长视频方面的优越性能。
Jun, 2024
使用检索式视频语言模型为长视频问答提供了一种简单而有效的方法,通过识别和选择最相关的视频片段并使用其关联的视觉标记作为上下文,从而降低了视频令牌的数量,消除了噪音干扰,并提高了系统性能。
Dec, 2023
Vision Language Models are tested on the IllusionVQA dataset, revealing their performance and weaknesses in comprehension and soft localization tasks, particularly in the context of optical illusions and In-Context Learning.
Mar, 2024
大型视觉语言模型通过上下文学习在自然语言处理中取得成功后,研究人员开发了具有上下文学习能力的大型视觉语言模型(LVLMs)。然而,在使用 LVLMs 实现上下文学习时,研究人员通常采用最简单的方式,如随机抽样来配置上下文序列,从而导致结果不理想。为了提高上下文学习性能,本研究以视觉问答(VQA)为案例研究,探索了多样化的上下文配置来寻找有效的配置,并通过改变上下文序列观察 LVLM 输出的变化,以改进我们对 LVLM 的理解。通过在三个 VQA 数据集上进行详尽的实验,我们揭示了应用的 LVLM 的三个重要内在性质,并证明了哪些策略可以始终改善上下文学习的 VQA 性能。
Dec, 2023
对多模态大语言模型进行了全面评估,介绍了一种用于长上下文能力评估的基准测试方法,包括多图像输入和图像拼接,以加大输入上下文长度,并开发了一个自动生成子图像级标签的协议。通过基于文本指令和图像内容描述,对 MLLMs 在长上下文图像输入中在一组图像中定位目标子图像的能力进行了压力测试。结果显示 GPT-4o 在长上下文情景中始终优于其他模型,但在负样本(即针未在抽屉中)中存在错误信息生成问题。此外,对 API 模型和开源模型进行了综合的长上下文评估,显示了相当大的性能差距。可通过提供的网址获取代码、数据和重现主要结果的指令。
Jun, 2024
通过引入一种新颖的视觉上下文学习方法(VICL),包括视觉演示检索、目标导向图像摘要和目标导向演示组合,解决了大型视觉语言模型(LVLMs)中上下文学习的挑战,提高了效果,并且进一步调查了演示文本长度和位置对 LVLM 的影响,展示了 ICL 复位特定模型知识的潜力。
Feb, 2024
提出了一种名为 VaLM 的预训练框架,对语言建模进行视觉增强,通过图像检索模块检索相应图像,使用视觉知识融合层使多模态语言建模可以参考文本和图像的视觉知识,并在需要的情况下获取相关联的图片,通过对各种视觉知识密集型的常识推理任务的评估,展示了 VaLM 在推理对象的常识,包括颜色、大小和形状方面的性能优于强语言和视觉语言基线。
May, 2022
通过研究图像上下文推理基准测试 HallusionBench,揭示了 VLM(Vision-Language Model)的幻觉和视觉错觉,并在未来改进中提出了新的见解。
Oct, 2023