X-InstructBLIP: 一种将 X-Modal 指导感知表示与 LLMs 和新兴的跨模态推理对齐的框架

Nov, 2023

X-InstructBLIP: 一种将 X-Modal 指导感知表示与 LLMs 和新兴的跨模态推理对齐的框架

X-InstructBLIP: A Framework for aligning X-Modal instruction-aware representations to LLMs and Emergent Cross-modal Reasoning

PDF

Artemis Panagopoulou, Le Xue, Ning Yu, Junnan Li, Dongxu Li...

TL;DR我们在这篇论文中介绍了一个简单而有效的跨模态框架，利用现有的大型语言模型，在 2D 视觉推理任务中通过将视觉编码器与最先进的语言模型对齐，展现了通用功能。我们通过收集高质量的调整数据，自动和可扩展地收集音频和 3D 方面 QA 样本，以便实现指导模态的微调。通过利用指导感知表达，我们的模型在无需大规模特定模态的预训练或自定义的情况下，表现出与领先模型相当的性能。此外，我们的方法展现出在两个或更多输入模态中进行跨模态推理的能力，尽管每个模态投影都是单独训练的。为了研究模型的跨模态能力，我们提出了一个新颖的鉴别跨模态推理（DisCRn）评估任务，包括 9K 个音频 - 视频 QA 样本和 28K 个图像 - 3D QA 样本，要求模型在不同的输入模态之间进行鉴别性推理。

Abstract

vision-language pre-training and instruction tuning have demonstrated general-purpose capabilities in 2D visual reasoning tasks by aligning visual encoders with state-of-the-art large language models (LLMs). In this paper, we introduce a simple, yet effective, →

vision-language pre-training cross-modality framework instruction-modality fine-tuning cross-modal reasoning abilities discriminative cross-modal reasoning

发现论文，激发创造

多模态语言模型的性能评估

该研究分析了不同的多模态指导调优方法，并评估了它们在复杂推理、对话、图像字幕、多项选择题和二元分类等任务中的性能，揭示了在将多模态能力融入大型语言模型时的架构选择的关键见解，但当前方法存在局限性，未能充分解决丰富多样的多模态指导数据集的需求和生成响应的真实性和事实性问题，这些发现阐明了适应图像理解的语言模型的现有方法学限制，并为寻求利用多模态版本的大型语言模型的研究人员和实践者提供了有价值的指导。

Oct, 2023

X-VILA: 大型语言模型的跨模态对齐

X-VILA 是一种全模式模型，通过结合图像、视频和音频模态来扩展大型语言模型（LLMs）的能力，实现跨模态的理解、推理和生成。在此基础上，通过一个有效的交错的任意 - 任意模态指令跟踪数据集以及一种视觉嵌入高速公路模块，解决了当前交叉模态对齐方法中的视觉信息丢失问题，从而在任意 - 任意模态对话方面表现出了比以前方法更高的效率。

May, 2024

LXMERT：使用 Transformers 学习跨模态编码器表示

本文介绍了使用 LXMERT 框架进行视觉 - 语言推理的方法。该框架包括一个基于 Transformer 模型的对象关系编码器、语言编码器和跨模态编码器，并通过大量图像 - 句子对进行预训练，以学习在这两个模态之间的关系。通过微调这个预训练模型，在两个视觉问答数据集上取得了最先进的结果，并在 NLVR2 数据集上将之前最好的结果提高了 22%。

Aug, 2019

跨模态离散表示学习

本文提出了一种自监督学习框架，借助向量量化创建的离散嵌入空间，实现了跨不同视图（模态）之间的表征学习和匹配，从而提升了模态检索任务的性能。实验表明，所提出的多模态精细离散化表征能够为高层次摘要表征提供补充，有效改善了跨模态检索的表现。

Jun, 2021

扩展多模态对比表示

本文介绍了一种用于多模态学习的训练高效且无需成对数据的方法，名为 Ex-MCR。通过整合现有多模态对比表示空间的知识，Ex-MCR 将多个现有对比表示空间对齐到基于对比表示空间，有效保留了基于对比表示空间的原始语义对齐。通过从训练数据、架构和学习目标的角度全面增强对比表示空间的对齐，Ex-MCR 展示了卓越的表示学习性能和出色的模态扩展性。通过将 CLAP（音频 - 文本）和 ULIP（3D - 视觉）的对比表示空间对齐到 CLIP（视觉 - 文本），Ex-MCR 展示了在音频 - 视觉、3D - 图像、音频 - 文本、视觉 - 文本检索和 3D 物体分类任务上的最先进性能，进一步展示了扩展模态之间的紧密语义对齐，凸显了模态的巨大潜力。

Oct, 2023

XDBERT：从跨模态系统中提取视觉信息以改善语言理解的 BERT 知识蒸馏模型

本文旨在研究如何将预训练的异模态 transformers 的视觉信息提炼给语言编码器，提出了一个被称为 XDBERT 的新框架，经过训练后在常规语言理解评估（GLUE）、有对抗生成的情况（SWAG）以及可读性基准测试上比预训练的 BERT 表现更好，并分析了 XDBERT 在 GLUE 上的表现，证明了改进很可能是基于视觉语言的。

Apr, 2022

多模态情感分析中的单模编码和跨模态预测的多模态对比学习

本文提出了一种名为 MultiModal Contrastive Learning (MMCL) 的新型框架，用于捕捉多模态表示中的内部和外部动态。我们采用对比学习技术，包括单模态对比编码和伪孪生网络，来过滤内嵌噪声和捕获跨模态动态。此外，我们设计了两种对比学习任务，实例和基于情感的对比学习，以促进预测过程并学习与情感相关的更多交互信息。在两个公共数据集上进行的广泛实验表明，我们的方法超过了现有的最先进方法。

Oct, 2022

InstructBLIP：通过指导微调实现通用的视觉 - 语言模型

本研究系统全面地研究了基于预训练系统的 BLIP-2 视觉语言模型的指导调整方法。通过构建 InstructBLIP 模型和使用指导语音特征提取，该模型在 13 个测试集上全面超越 BLIP-2 和更大的 Flamingo 模型，在单个下游任务的微调中获得了最先进的性能。

May, 2023

跨视角语言建模：朝向统一的跨语言跨模态预训练

本研究介绍了一种名为 Cross-View Language Modeling 的语言模型预训练框架，通过共享架构和目标统一交叉语言交叉模态预训练。我们的方法将多模态数据（即图像字幕对）和多语言数据（即平行句子对）作为同一对象的两个不同视角，通过条件掩蔽语言建模和对比学习对两个视角进行对齐。在多语言多模态基准 IGLUE 和两个多语言图像文本检索数据集上的实证结果表明，CCLM 显着优于先前的最新技术，在绝对平均改进方面超过 10％，是第一个在零 - shot 跨语言传输下超越代表性的英语视觉语言模型的多语言多模态模型。

Jun, 2022

ImageBind-LLM：多模态指令调整

我们提出了 ImageBind-LLM，一种通过 ImageBind 进行大型语言模型（LLM）的多模态指令调优方法。我们的方法可以响应多模态条件，包括音频、三维点云、视频以及它们的嵌入空间算术，仅通过图像文本对齐训练。我们的模型表现出卓越的多模态指令跟随能力，并具有显著的语言生成质量。

Sep, 2023