预集成提示信息至视觉编码的多模态大语言模型框架
通过考虑模型和数据的角度,提出了MMICL去解决图像与文本交叉多模态提示的问题,通过无需训练的数据更好地适应用户真实应用中复杂的提示,其中包括多模态上下文与交叉的图像和文本、每个图像的文本参考以及具有空间、逻辑或时间关系的多图像数据。在广泛的视觉-语言任务中,特别是在复杂推理基准测试中,MMICL取得了新的最先进的零样本和少样本性能。同时,对ScienceQA-IMG上的实验表明MMICL成功缓解了视觉-语言模型中的语言偏差问题,我们相信这是MMICL卓越性能背后的原因。
Sep, 2023
该研究通过对多模态大型语言模型(MLLMs)中不同视觉编码器的有效性进行深入调查,发现了CLIP的浅层特征在细粒度任务(如定位和区域理解)中具有特殊优势。同时,研究还发现没有经过文本-图像对齐预训练的视觉模型DINO在MLLMs中作为视觉部分展现了有希望的性能,只需为其配备一个MLP层进行对齐,DINO在细粒度相关的感知任务中超过了CLIP。基于这些观察结果,研究提出了一种简单而有效的特征融合策略,称为COMM,它通过多层次特征融合将CLIP和DINO结合起来,以增强MLLMs的视觉能力。全面的实验证明了COMM相较于现有方法的卓越性能,展示了其在MLLMs中增强的视觉能力。
Oct, 2023
多模态大型语言模型(MLLMs)借助视觉知识的两个层面提升了理解和感知多模态信号的能力。通过逐步整合细粒度的空间感知视觉知识和软提示高级语义视觉证据的方法,我们的模型在多个多模态基准测试中展示了过人的优越性能。
Nov, 2023
这篇论文提出了一种通过专家混合知识增强机制来改善多模态大型语言模型(MLLMs)的视觉感知能力的方法,并通过集成视觉专家实现了视觉输入的更全面准确的概括,进一步提升了MLLMs的视觉感知能力。
Jan, 2024
讨论构建出色的多模态大型语言模型的重要组成部分和数据选择,通过仔细和全面的分析,证明了使用图像-标题、交错图像-文本和仅文本数据进行大规模多模态预训练对于在多个基准测试中实现最新成果至关重要。通过扩展所提出的模型,构建了以稠密模型和专家混合模型为特征的MM1系列多模态模型,这些模型在预训练指标上取得最新成果,并在一系列已建立的多模态基准测试中实现了有竞争力的性能。
Mar, 2024
通过Transferable Visual Prompting (TVP)这一新方法,在只对一个模型进行训练的情况下,有效改善多样化的Multimodal Large Language Models(MLLMs)的性能,以提高其在下游任务中的应用能力。
Apr, 2024
为了弥补视觉和语言模态之间的差距,我们提出了prompt-aware适配器,这些适配器根据提示的特定焦点动态嵌入视觉输入,以从提示中捕捉到最相关的视觉线索,从而显著增强了大型语言模型理解和解释视觉内容的能力。实验表明prompt-aware适配器在各种视觉问答任务(如计数和位置推理)中的有效性。
May, 2024
通过将细粒度的知识信息直接嵌入空间嵌入图作为视觉提示,本论文提出的新的视觉提示方法可轻松地融入各种多模态大语言模型,从而显著提高它们的视觉理解性能。经过严格的实验证明,我们的方法可以增强多模态大语言模型在九个基准测试中的性能,增强它们的细粒度上下文感知能力。
Jul, 2024
本研究解决了多模态大语言模型(MLLM)中视觉提示注入的无训练方法缺口。我们提出了一种通过可学习的视觉令牌优化来实现该目的的新颖方法,并在推理阶段优化视觉令牌,以增强注意力图中参考区域的强度。研究结果表明,该方法不仅具备良好的可控性和可解释性,还能有效整合参考能力。
Jul, 2024
本研究解决了当前多模态大型语言模型中数据和计算效率之间的权衡问题。提出的EE-MLLM通过改进原有的自注意力机制,采用组合注意力机制,既不增加额外模块或可学习参数,又有效提升了数据和计算效率。实验结果验证了EE-MLLM在多个基准测试上的优越性能,具有显著的潜在影响。
Aug, 2024