iWISDM: 在大规模的多模态模型中评估指令遵循
通过引入指导型视觉遮罩(IVM)来改进多模式指令跟踪,本研究在多模式设置下证明了 IVM 的适用性,并显示出在图像与指令之间进行准确的视觉对齐的优势。通过构建视觉遮罩,IVM 增强的多模式模型能够更好地关注与任务相关的图像区域,从而取得更好的指令跟踪表现。实验结果表明,IVM 作为一种即插即用工具,显著提升了多样化的多模式模型性能,在各种复杂多模式基准上取得了新的最佳结果。
May, 2024
多模态语言生成领域中,我们引入了 VLIS,这是一个新的框架,将视觉语言模型的视觉调节能力与纯文本语言模型的语言理解相结合,通过提取图像和文本之间的点对互信息,并将其作为重要性抽样权重来调整基于文本的模型的标记生成概率,从而在共识理解和复杂文本生成任务上提升了视觉语言模型的性能。VLIS 代表了多模态语言生成的一个有前途的新方向。
Oct, 2023
我们介绍了 VISUAL EMBEDDED INSTRUCTION (VIM),这是一个新的框架,旨在评估多模态大语言模型 (MLLMs) 在视觉指令跟随能力方面的表现。通过将指令嵌入到视觉场景中,VIM 对 MLLMs 提出挑战,对指令跟随需要强大的视觉解释能力。我们将 VIM 应用于不同的基准测试,包括 VQAv2、MME、MM-Vet 和 RefCOCO 系列,并通过三个不同的上下文学习设置:零次尝试、一次尝试和对应尝试,探索不同的 MLLMs。我们观察到,开源的 MLLMs 与 GPT-4V 之间存在显著的性能差异,这意味着它们在视觉指令理解方面的熟练程度还不够好。我们的结果突出了提高 MLLMs 在指令跟随方面能力的有希望方向。我们的目标是通过 VIM 作为一个有用的规范来推动该领域的最新技术进展和推动进一步的发展。
Nov, 2023
介绍了 TextBind,这是一个几乎无需标注的框架,可以为较大的语言模型赋予多轮交错的多模态指令跟随能力,通过仅使用图像 - 标题对生成多轮多模态指令 - 回应对话,从而旨在推动多模态指令跟随领域的未来研究。
Sep, 2023
连接文本和视觉模态在生成智能中起着关键作用。受大型语言模型成功的启发,目前正在大量研究开发多模态大型语言模型 (MLLMs)。本文全面回顾了最近的面向视觉的 MLLMs,分析了它们的体系结构选择、多模态对齐策略和训练技术。同时,还对这些模型在包括视觉定位、图像生成和编辑、视觉理解以及领域特定应用等一系列任务上进行了详细分析。此外,我们还编译和描述了训练数据集和评估基准,并在性能和计算要求方面对现有模型进行了比较。总体而言,本调查提供了当前最新技术的全面概述,为未来的 MLLMs 奠定了基础。
Feb, 2024
本研究提出了 MultiInstruct,这是第一个多模态指令调优基准数据集,旨在设计多个特定的任务和多个专家编写的指令,使用已存在的开源数据集和多个迁移学习策略来优化 OFM 模型的强零示性能,并且探索了一个新的评估指标:敏感性。
Dec, 2022
自动化帮助视障人士处理日常活动的目标是通过计算机视觉和自然语言处理的发展实现的,使用大型模型,通过大规模研究调查了大型模型在视障辅助方面的潜力和限制,结果显示,虽然大型模型可以增强视障辅助功能,但其输出无法很好地与现实接轨并且缺乏细致的指导。
Jan, 2024
本文系统综述了视觉指令调整方法,包括计算机视觉任务范式、视觉指令调整的发展、常用的网络架构、评估设置和任务、常用的数据集、已有的视觉指令调整方法的分类和对比、挑战和未来研究方向。
Dec, 2023
生成用户定制的视觉说明书的新任务,通过结合大型语言模型和文本到图像生成扩散模型实现了一种简单方法(StackedDiffusion),在有效性、一致性和效果的度量上远远超过基线方法和最先进的多模态语言模型。
Dec, 2023
本文介绍了一个名为 MERLIM 的多模式评估基准,用于评估 IT-LVLM 在基本计算机视觉任务中的表现,发现先进的 IT-LVLM 仍然有限于识别精细的视觉概念,对象幻觉在各种任务中普遍存在,而且结果受输入查询的细微变化的强烈偏见影响,即使查询具有相同的语义。研究结果还表明,这些模型在视觉基础上较弱,但仍然可以通过全局视觉模式或 LLM 组件中的文本偏见进行恰当的猜测。
Dec, 2023