PolyViT：基于图像、视频和音频的联合训练视觉 Transformer 模型

Nov, 2021

PolyViT：基于图像、视频和音频的联合训练视觉 Transformer 模型

PolyViT: Co-training Vision Transformers on Images, Videos and Audio

Valerii Likhosherstov, Anurag Arnab, Krzysztof Choromanski, Mario Lucic, Yi Tay...

TL;DR本文提出了一种名为 PolyViT 的多模态 Transformer 模型，并通过在单模态上协同训练不同任务，提高了每个任务的准确性。通过在多模态和任务上共同训练 PolyViT 模型，可以更加节省参数，并学习可适用多个领域的表示。此外，我们证明了共同训练是简单和实用的，因为我们不需要为每个数据集组合调整超参数，而是可以直接从标准单任务训练中适应。

Abstract

Can we train a single transformer model capable of processing multiple modalities and datasets, whilst sharing almost all of its learnable parameters? We present polyvit, a model trained on image, audio and video

polyvit transformer model multimodal co-training parameter-efficient

发现论文，激发创造

单一视觉变换器的图像和视频联合学习

我们提出了一种使用单一模型联合学习图像和视频的方法，该方法采用了批量图像输入和通过深度融合来进行时间聚合的视频帧集合。通过实验结果展示了在两个图像数据集和两个动作识别数据集上的效果。

Aug, 2023

参数高效的多模态变压器用于视频表示学习

本研究针对音视频表示学习中的多模态转换器，通过分解模态特定和模态共享部分，基于低秩逼近提出了一种新的参数共享方案来降低其参数，并提出一种基于 CNN 嵌入空间的实例相似性负采样方法，可以将模型从头开始训练，并通过预先训练的方式在 Kinetics-700 上演示了我们的方法。

Dec, 2020

ViT-Lens: 走向全模态表示

本文介绍了一种名为 ViT-Lens 的方法，通过使用预训练的 ViT 模型感知新颖形式的多模态数据，并与预定义空间进行对齐，从而实现高效的全模态表示学习。在以 3D 为例的验证中，ViT-Lens 在零样本 3D 分类任务中取得了显著的改进，同时还成功将训练好的 3D lens 集成到 InstructBLIP 模型中实现了零样本 3D 问答。

Aug, 2023

多模视觉 - 语言整合的多模视频变压器与大脑 (部分) 对齐

我们通过利用脑科学证据来探索预训练的多模态视频变换器模型，发现视觉增强了与语言处理中的遮蔽预测性能，支持模型中交叉模态表示可以受益于个体模态，但未发现与大脑相关的信息，我们展示使用一个需要视觉 - 语言推理的任务，可以改善预训练联合表示的脑对齐效果，这些结果呈现了多模态变换器在部分与大脑相关的方式上集成视觉和语言的能力，但也表明改善这些模型的脑对齐可能需要新的方法。

Nov, 2023

VATT：用于原始视频、音频和文本的多模态自监督学习的 Transformer 模型

我们提出了一种使用无标签数据学习多模态表示的框架，利用无卷积的 Transformer 架构。通过使用多模态对比损失训练 Video-Audio-Text Transformer (VATT)，我们从三个模态中提取丰富的多模态表示，并在视频动作识别、音频事件分类、图像分类和文本到视频检索等下游任务中对其性能进行评估。VATT 不需要监督预训练，其视觉 Transformer 在 Kinetics-400 上实现了 82.1%、在 Kinetics-600 上实现了 83.6%、在 Kinetics-700 上实现了 72.7%、在 Moments in Time 上实现了 41.1% 的最高准确率，并且将 VATT 迁移至图像分类任务中，其 ImageNet 的最高准确率达到了 78.7%。VATT 的音频 Transformer 在 AudioSet 上实现了 39.4% 的 mAP，而不需要监督预训练，表现出模型的泛化能力。

Apr, 2021

MA-AVT：用于参数高效音频 - 视觉变换器的模态对齐

该论文介绍了一种新的参数高效的视听变压器 MA-AVT，采用深度模态对齐来实现对应的多模态语义特征的对齐，通过联合单模态和多模态令牌学习，引入冻结的模态共享变压器，使模型能够学习到每种模态的独立表示，并关注它们之间的跨模态关系。此外，在编码阶段引入块对齐性学习以对齐粗粒、细粒的层次特征，并引入鲁棒的判别前景挖掘机制以抑制每种模态中的背景特征。通过在 benchmark AVE、VGGSound 和 CREMA-D 数据集上进行的大量实验，该方法在性能上取得了显著的改进。

Jun, 2024

MiniViT: 基于权重复用压缩视觉 Transformer

提出 MiniViT 压缩框架，利用权重多路复用和自注意力权重蒸馏相结合，显著减少参数数量，同时在视觉任务中保持高精度，找到解决 Vision Transformer 参数过多的问题的方法。

Apr, 2022

FM-ViT：面部反欺诈的灵活模态视觉变压器

本文提出了一种基于 Transformer 的框架，名为 Flexible Modal Vision Transformer (FM-ViT)，用于面部防欺骗，以灵活地针对任何单模态攻击情景和可用的多模态数据。实验结果表明，单个基于 FM-ViT 的模型不仅可以灵活评估不同的模态样本，而且在较小的 FLOPs 和模型参数的情况下，也可以超越现有的单模态框架，并与多模态框架的性能相当。

May, 2023

MMViT: 多尺度多视角视觉 Transformer

提出了一种名为 Multiscale Multiview Vision Transformers（MMViT）的 transformer 模型，它引入了多尺度特征地图和多视角编码。该模型可以在不同的分辨率下处理输入的多个视图，并使用交叉注意力块将不同视图的信息融合在一起，从而实现对输入的复杂高维表示。在音频和图像分类任务上，通过实验证明了 MMViT 的有效性和达到了最先进的结果。

Apr, 2023

SVIT：扩展视觉指导调整

通过构建包括 160 万对问答对、106 千个详细图像描述的 320 万视觉指令调整数据集，对多模态模型进行训练可显著提高其在视觉感知、推理和规划方面的多模态性能。

Jul, 2023