MLLMs 的密集连接器
本研究提出了一种强大的视觉 - 语言连接器,通过挖掘视觉锚点并在预训练中利用其丰富的先验知识,实现高准确性和低计算成本的多模态大型语言模型。通过广泛的实验验证,该方法相比基线方法将计算成本减少了三分之二,同时表现更好,突显了 AcFormer 的效果和效率。
May, 2024
这篇论文提出了一种通过专家混合知识增强机制来改善多模态大型语言模型 (MLLMs) 的视觉感知能力的方法,并通过集成视觉专家实现了视觉输入的更全面准确的概括,进一步提升了 MLLMs 的视觉感知能力。
Jan, 2024
该研究通过对多模态大型语言模型(MLLMs)中不同视觉编码器的有效性进行深入调查,发现了 CLIP 的浅层特征在细粒度任务(如定位和区域理解)中具有特殊优势。同时,研究还发现没有经过文本 - 图像对齐预训练的视觉模型 DINO 在 MLLMs 中作为视觉部分展现了有希望的性能,只需为其配备一个 MLP 层进行对齐,DINO 在细粒度相关的感知任务中超过了 CLIP。基于这些观察结果,研究提出了一种简单而有效的特征融合策略,称为 COMM,它通过多层次特征融合将 CLIP 和 DINO 结合起来,以增强 MLLMs 的视觉能力。全面的实验证明了 COMM 相较于现有方法的卓越性能,展示了其在 MLLMs 中增强的视觉能力。
Oct, 2023
多模态大型语言模型(MLLMs)借助视觉知识的两个层面提升了理解和感知多模态信号的能力。通过逐步整合细粒度的空间感知视觉知识和软提示高级语义视觉证据的方法,我们的模型在多个多模态基准测试中展示了过人的优越性能。
Nov, 2023
讨论构建出色的多模态大型语言模型的重要组成部分和数据选择,通过仔细和全面的分析,证明了使用图像 - 标题、交错图像 - 文本和仅文本数据进行大规模多模态预训练对于在多个基准测试中实现最新成果至关重要。通过扩展所提出的模型,构建了以稠密模型和专家混合模型为特征的 MM1 系列多模态模型,这些模型在预训练指标上取得最新成果,并在一系列已建立的多模态基准测试中实现了有竞争力的性能。
Mar, 2024
使用集成专家技术,从不同的视觉编码器中协同能力,通过融合网络统一处理来自不同视觉专家的输出,并解决图像编码器和预训练 LLMs 之间的差距,同时探索不同的位置编码方案以解决位置溢出和长度限制问题,实验证明,具有多个专家的 VLMs 在性能上表现出优势,并随着集成更多专家而显著提升表现。
Jan, 2024
采用多种视觉特征与语言模型相结合的创新方法 MG-LLaVA,在感知任务中提供了出色的表现,并且超越了相似参数规模的现有模型,具备出色的目标识别能力。
Jun, 2024
本研究提出了一种新的方法来增强多模式大型语言模型的可解释性,通过专注于图像嵌入组件。我们将开放世界定位模型与多模式大型语言模型相结合,从而创建一个能够同时产生文本和物体定位输出的新架构。提出的架构极大地促进了可解释性,使我们能够设计一种新的显著性图以解释任何输出标记,识别模型幻觉,并通过语义对抗扰动评估模型的偏见。
May, 2024
人类具有视觉感知的出色技能,近期多模态大型语言模型(MLLM)在视觉与语言任务上取得了令人印象深刻的性能,但在识别或计数图像中的实体方面存在一些问题。为了改善多模态 LLM 在感知和推理方面的准确性,我们提出使用 VCoder 作为多模态 LLM 的感知工具,该工具能够通过接收分割或深度图等感知方式来提升多模态 LLM 的感知能力。此外,我们利用 COCO 图像和现成的视觉感知模型输出来创建 COST 数据集,用于训练和评估 MLLM 在对象感知任务上的表现。最后,我们提供了大量的实验证据,证明了 VCoder 在对象级感知能力上相比其他多模态 LLM(包括 GPT-4V)的改进。我们公开发布了我们的数据集、代码和模型,以促进相关研究。
Dec, 2023