ControlMLLM:无训练的多模态大语言模型视觉提示学习
多模态大型语言模型(MLLMs)借助视觉知识的两个层面提升了理解和感知多模态信号的能力。通过逐步整合细粒度的空间感知视觉知识和软提示高级语义视觉证据的方法,我们的模型在多个多模态基准测试中展示了过人的优越性能。
Nov, 2023
这篇论文提出了一种通过专家混合知识增强机制来改善多模态大型语言模型(MLLMs)的视觉感知能力的方法,并通过集成视觉专家实现了视觉输入的更全面准确的概括,进一步提升了MLLMs的视觉感知能力。
Jan, 2024
连接文本和视觉模态在生成智能中起着关键作用。受大型语言模型成功的启发,目前正在大量研究开发多模态大型语言模型 (MLLMs)。本文全面回顾了最近的面向视觉的MLLMs,分析了它们的体系结构选择、多模态对齐策略和训练技术。同时,还对这些模型在包括视觉定位、图像生成和编辑、视觉理解以及领域特定应用等一系列任务上进行了详细分析。此外,我们还编译和描述了训练数据集和评估基准,并在性能和计算要求方面对现有模型进行了比较。总体而言,本调查提供了当前最新技术的全面概述,为未来的MLLMs奠定了基础。
Feb, 2024
提出了AnyRef模型,它能从多模态参考中生成像素级的物体感知和自然语言描述,从而提供更大的灵活性,超越了文本和区域提示,无需特定的设计。通过提出的重新聚焦机制,生成的定位输出可以更好地聚焦在参考对象上,从而隐含地融入了像素级的监督。该模型在多个基准测试中取得了最先进的结果,包括多模态参考分割和区域级参考表达生成。
Mar, 2024
通过Transferable Visual Prompting (TVP)这一新方法,在只对一个模型进行训练的情况下,有效改善多样化的Multimodal Large Language Models(MLLMs)的性能,以提高其在下游任务中的应用能力。
Apr, 2024
通过引入Visual Tokens Withdrawal模块以提升Multimodal large language models在快速推理方面的性能,通过分析注意力集中现象和信息迁移现象,我们发现在深层的MLLMs中不需要视觉特征信息,并通过判断Kullback-Leibler散度选择了合适的层进行视觉特征的提取操作,使得我们的方法能在维持性能的同时,减少超过40%的计算开销。
May, 2024
为了弥补视觉和语言模态之间的差距,我们提出了prompt-aware适配器,这些适配器根据提示的特定焦点动态嵌入视觉输入,以从提示中捕捉到最相关的视觉线索,从而显著增强了大型语言模型理解和解释视觉内容的能力。实验表明prompt-aware适配器在各种视觉问答任务(如计数和位置推理)中的有效性。
May, 2024
ClawMachine是一种新的方法,通过直接使用视觉令牌来编码实体,统一了视觉引用和定位的自动回归格式,并通过仅有解码器的架构进行学习,实现了对视觉引用和定位任务的竞争性表现,并减少了对训练数据的需求。此外,ClawMachine展示了在复杂视觉推理方面整合多源信息的本地能力,这是先前的多模态大型语言模型很难在没有特定适应的情况下实现的。
Jun, 2024
通过将细粒度的知识信息直接嵌入空间嵌入图作为视觉提示,本论文提出的新的视觉提示方法可轻松地融入各种多模态大语言模型,从而显著提高它们的视觉理解性能。经过严格的实验证明,我们的方法可以增强多模态大语言模型在九个基准测试中的性能,增强它们的细粒度上下文感知能力。
Jul, 2024
本研究解决了当前多模态大型语言模型中数据和计算效率之间的权衡问题。提出的EE-MLLM通过改进原有的自注意力机制,采用组合注意力机制,既不增加额外模块或可学习参数,又有效提升了数据和计算效率。实验结果验证了EE-MLLM在多个基准测试上的优越性能,具有显著的潜在影响。
Aug, 2024