CREMA: 多模态组合视频推理的高效模块适应与融合

Feb, 2024

CREMA: 多模态组合视频推理的高效模块适应与融合

CREMA: Multimodal Compositional Video Reasoning via Efficient Modular Adaptation and Fusion

Shoubin Yu, Jaehong Yoon, Mohit Bansal

TL;DR本文提出了一种高效的模态融合框架 CREMA，用于将任何新的模态注入视频推理，通过使用现有的预训练模型增强给定视频的多个信息模态，然后引入一个与每个可访问模态相关的多个参数高效模块的查询转换器，将不同的数据类型整合到响应产生的 LLM 令牌嵌入空间，同时提出了一个压缩多模态查询的融合模块，在维持 LLM 的计算效率的同时结合额外的模态，通过充分验证了在视频 - 3D、视频 - 音频和视频 - 语言推理任务上的性能，显示了优于其他强大的多模态 LLMs（包括 BLIP-2、3D-LLM 和 SeViLA）的表现，并使用了 96% 较少的可训练参数。

Abstract

Despite impressive advancements in multimodal compositional reasoning approaches, they are still limited in their flexibility and efficiency by processing fixed modality inputs while updating a lot of model parameters. This paper tackles these critical challenges and proposes

multimodal compositional reasoning crema modality-fusion framework video reasoning parameter-efficient modules

发现论文，激发创造

视频检索的多模态 Transformer

本文提出了一种基于多模态 transformer 架构的视频检索方法，该方法能够充分利用视频中的跨模态线索，并融合先前的时间信息。我们还研究了联合优化语言嵌入和多模态 transformer 的最佳实践。该方法在三个数据集上取得了最新的视频检索结果。

Jul, 2020

一个基于混合深度学习框架的视频分类多模态信息建模模型

本文研究如何利用多模态线索来改进视频分类。我们提出了一个混合的深度学习框架，它将静态空间外观信息、短时间内的运动模式、音频信息以及长时序动态性等多个模态的线索集成起来，以捕捉它们之间的关系，并通过多次实验表明，该框架可以提高视频分类的准确度。

Jun, 2017

一种基于多模态上下文推理的条件推断方法，适用于联合文本和视觉线索

提出了一种名为 ModCR 的多模态上下文推理方法，结合文本信息和图像信息进行上下文推理，相较于之前的基于预训练视觉 - 语言模型的方法，ModCR 将给定的文本抽象语义和客观图像信息作为上下文信息，在预训练的语言模型中嵌入它们进行上下文推理，并通过引入可学习的对齐前缀将多视角语义对齐信息与语言和图形结合起来，使得该语言模型更适用于联合文本和视觉线索的多模态推理场景。

May, 2023

扩展多模态对比表示

本文介绍了一种用于多模态学习的训练高效且无需成对数据的方法，名为 Ex-MCR。通过整合现有多模态对比表示空间的知识，Ex-MCR 将多个现有对比表示空间对齐到基于对比表示空间，有效保留了基于对比表示空间的原始语义对齐。通过从训练数据、架构和学习目标的角度全面增强对比表示空间的对齐，Ex-MCR 展示了卓越的表示学习性能和出色的模态扩展性。通过将 CLAP（音频 - 文本）和 ULIP（3D - 视觉）的对比表示空间对齐到 CLIP（视觉 - 文本），Ex-MCR 展示了在音频 - 视觉、3D - 图像、音频 - 文本、视觉 - 文本检索和 3D 物体分类任务上的最先进性能，进一步展示了扩展模态之间的紧密语义对齐，凸显了模态的巨大潜力。

Oct, 2023

情感维度识别中的递归跨模态注意力的多模态融合

通过跨模态注意力和时间卷积网络，提出了一种用于多模态情感识别的模型，能够有效地捕捉不同模态之间的互补关系，并在赛事中实现显著改进。

Mar, 2024

多模态大语言模型的模型组合

在该篇论文中，研究人员介绍了一种新的范例通过现有 MLLMs 的模型组合来创建一个新模型，该模型保留了每个原始模型的模态理解能力。通过实验证明，模型组合可以创建一个多功能模型，能够处理来自多种模态的输入数据。

Feb, 2024

一次搞定 —— 用于视频检索的多模态融合 Transformer

本文提出一种基于多模态、模态无关的融合变压器方法，通过交换多个模态之间的信息并将其整合成一个联合的多模态表示，从而获得聚合多模态时态信息的嵌入，可用于零 - shot 检索和分类。我们在 HowTo100M 数据集上训练模型，并在四个具有挑战性的基准数据集上评估结果，取得了零 - shot 视频检索和零 - shot 视频行动定位的最新成果。

Dec, 2021

对比表示集成下的多模态联邦学习

CreamFL 是一个支持多模态联邦学习的框架，实现了对客户侧使用异构模型结构和数据模态，从而提高了全局模型的复杂度和数据容量，同时使用公共数据集进行知识交流，并设计了全局本地交叉模态集成策略来聚合客户端表示。同时，它还提出两种模态间和模态内对比的策略来规范本地训练以达到全局的共识性。在图像 - 文本检索和视觉问答任务上的测试结果表明，它比目前流行的联邦学习方法要更好。

Feb, 2023

X-InstructBLIP: 一种将 X-Modal 指导感知表示与 LLMs 和新兴的跨模态推理对齐的框架

我们在这篇论文中介绍了一个简单而有效的跨模态框架，利用现有的大型语言模型，在 2D 视觉推理任务中通过将视觉编码器与最先进的语言模型对齐，展现了通用功能。我们通过收集高质量的调整数据，自动和可扩展地收集音频和 3D 方面 QA 样本，以便实现指导模态的微调。通过利用指导感知表达，我们的模型在无需大规模特定模态的预训练或自定义的情况下，表现出与领先模型相当的性能。此外，我们的方法展现出在两个或更多输入模态中进行跨模态推理的能力，尽管每个模态投影都是单独训练的。为了研究模型的跨模态能力，我们提出了一个新颖的鉴别跨模态推理（DisCRn）评估任务，包括 9K 个音频 - 视频 QA 样本和 28K 个图像 - 3D QA 样本，要求模型在不同的输入模态之间进行鉴别性推理。

Nov, 2023

基于注意力的多模态融合视频描述

本文提出了一种称为多模态注意力的方法，可以针对图像特征、运动特征和音频特征进行选择性关注，以促进视频描述的多模态信息融合，并在 Youtube2Text 数据集上取得了竞争状态 - of-the-art 的结果。

Jan, 2017