MAMO:面向细粒度视觉语言表征学习的遮蔽多模态建模
本文提出了一种多模态学习的编码器-解码器模型,学习图像和文本的多模态联合嵌入空间和现代语言模型。使用LSTM进行句子编码,该模型在Flickr8K和Flickr30K数据集上表现出色。同时,该模型通过线性编码器捕捉到了空间算术中的多模态规律。
Nov, 2014
本研究通过将视觉信息纳入 SKIP-GRAM 模型,创新性地提出了一种多模式的词向量表达方式,并取得了良好的语义基准表现。同时,该模型还能够将视觉信息传递到所有词中,用于改进零样本图像标注和检索,并探索了抽象词汇的有趣视觉属性,为意义的具体化实现奠定了基础。
Jan, 2015
本研究引入了UNITER,一种通过对四个图像-文本数据集(COCO,Visual Genome,Conceptual Captions和SBU Captions)进行大规模预训练学习的UNiversal image-text representation,其可为异构下游V + L任务提供联合多模态嵌入。
Sep, 2019
本论文提出一种基于Masked Token预测的大型多模式模型(M3AE),能在不引入偏好于数据增强的对比学习目标的情况下,学习出适用于下游任务的可传递表示,并证明了高文本遮盖率下训练能够显著提升模型性能。M3AE能够在配对和非配对的图像-文本数据上训练,具有可扩展性和灵活性。
May, 2022
本文研究如何使用掩码信号建模来实现视觉和语言(V + L)表示学习,提出了联合掩码视觉和语言建模的方法,通过不同的模态互相重构,隐式地学习语言标记和图像补丁的交叉模态对齐,并在各种V + L任务中实现了最先进的性能。
Aug, 2022
本综述论文全面介绍了深度学习多模态体系结构的演变和增强,以应对文本、视觉和音频特征的多样化跨模态和现代多模态任务:包括最新的任务特定的深度学习方法,多模态预训练目标,以及从最先进的预训练多模态方法到统一体系结构。本文结合具体数据集和案例分析展示多模态学习的挑战、间隔和潜在研究主题。
Feb, 2023
我们提出了一种使用解码器模型进行多模式任务训练的新范例,其中MaMMUT作为一个简单的模型,能够通过新颖的文本解码器的两次传递方法容纳对比和生成学习,并能够直接扩展到开放词汇的对象检测和视频语言任务,且该模型在多个任务上均取得了最佳效果。
Mar, 2023
最近的多模态大型语言模型 (MLLMs) 在感知图像以及遵循开放性指令方面表现出令人印象深刻的能力。MLLMs 的能力取决于两个关键因素:用于实现视觉模块和大型语言模型特征对齐的模型架构以及用于人类指令跟随的多模态指令调整数据集。本研究发现,紧凑的预训练视觉语言模型天然地可以作为视觉和语言之间 '开箱即用' 的桥梁。基于此,我们提出了 Muffin 框架,直接使用预训练的视觉语言模型作为视觉信号的提供者。此外,我们还提出了 UniMM-Chat 数据集,探索了数据集之间的补充关系,生成了 1.1M 个高质量而多样化的多模态指令。实验结果表明 Muffin 框架和 UniMM-Chat 数据集的有效性。Muffin 在广泛的视觉语言任务中实现了最先进的性能,显著超过了 LLaVA 和 InstructBLIP 等最先进模型。我们的模型和数据集均可在此链接处访问。
Oct, 2023
通过提出一种名为4M的多模态训练方案,将文本、图像、几何和语义模态,以及神经网络特征图等多种输入/输出模态统一到一个Transformer编码器-解码器模型中进行训练,论文展示了4M在训练多功能且可扩展的视觉基础模型方面的潜力和优势,并为多模态学习在视觉和其他领域的进一步探索提供了基础。
Dec, 2023
通过融合先进的目标检测和光学字符识别模型,我们在多模态大型语言模型的基础上进行了实证研究,以改善对细粒度图像理解的能力并减少回应中的虚构现象。我们的研究探讨了融合检测信息的基于嵌入的方法,该方法对原始多模态大型语言模型的影响以及检测模型的互换性。通过与LLaVA-1.5、DINO和PaddleOCRv2等模型进行系统实验,我们发现我们的方法不仅在特定的视觉任务中提高了多模态大型语言模型的性能,而且保持了其原始优势。结果表明,改进后的多模态大型语言模型在10个基准测试中有9个超过了先进模型,在规范化的平均得分上取得了最高12.99%的提升,标志着多模态理解领域的重大进展。通过发布我们的代码,我们希望进一步探索多模态大型语言模型在细粒度多模态对话能力方面的应用。
Jan, 2024