OmniVec：跨模态共享学习的鲁棒表示学习

Nov, 2023

OmniVec：跨模态共享学习的鲁棒表示学习

OmniVec: Learning robust representations with cross modal sharing

Siddharth Srivastava, Gaurav Sharma

TL;DR学习基于任务的方法共享模态的共同之处，共同架构多任务多模态的网络，使得跨模态任务的联合训练能够实现信息共享并获得最先进的结果。

Abstract

Majority of research in learning based methods has been towards designing and training networks for specific tasks. However, many of the learning based tasks, across modalities, share commonalities and could be potentially tackled in a joint framework. We present an approach in such di

learning based methods multiple tasks multiple modalities joint network state-of-the-art results

发现论文，激发创造

OmniNet: 多模态多任务学习的统一架构

本文介绍了一种名为 OmniNet 的神经网络框架，使用 Transformer、Spatio-temporal Cache 和自我注意机制来支持多模态学习和异步多任务学习，并演示了训练多个任务的模型在保持性能的前提下大幅度压缩的能力。

Jul, 2019

自监督多模态通用网络

本文介绍了一种利用视频中存在的三种模态（视觉、音频和语言），通过自监督学习来学习表示的方法，并引入了多模态多功能网络的概念 —— 一种可以吸收多种模态，其表示方法可以在多种模态下用于下游任务。通过这种方法，我们可以在多个具有挑战性的基准测试中获得最先进的性能。

Jun, 2020

多模态表示学习：演进、预训练及其应用的综述

本综述论文全面介绍了深度学习多模态体系结构的演变和增强，以应对文本、视觉和音频特征的多样化跨模态和现代多模态任务：包括最新的任务特定的深度学习方法，多模态预训练目标，以及从最先进的预训练多模态方法到统一体系结构。本文结合具体数据集和案例分析展示多模态学习的挑战、间隔和潜在研究主题。

Feb, 2023

视觉表征学习的多模态对比训练

通过同时利用内部数据属性和跨模态关联的语义信息，开发了一种学习视觉表示形式的方法，其中包括多种类型的对比损失，从而提高了学习到的视觉表示的质量。该方法在 COCO 数据集上进行训练，可以被用于图像分类、目标检测、实例分割等下游任务，并在 ImageNet 数据集上实现了 55.3% 的顶级验证精度。

Apr, 2021

利用单模型教师提升多模态学习

通过结合融合目标和单模态蒸馏的方法，提出了一种新的多模态学习方法 Uni-Modal Teacher 解决模态失败问题，为实现真实世界的机器人应用奠定了基础。

Jun, 2021

多模态 VAEs 中的统一多样性：改进的表示学习

用于多模态数据的变分自编码器在数据分析中具有许多任务的潜力，如表示学习、条件生成和插补。我们通过用软约束替换这些硬约束，提出了一种新的专家混合先验方法，软指导每个模态的潜编码向共享的聚合后验靠近，从而得到一个更好的潜编码表示，并提高了对缺失数据模态的填充能力。在多个基准数据集和具有挑战性的现实神经科学数据集上进行了广泛实验证明，与现有方法相比，学到的潜编码表示和缺失数据模态的插补有所改进。

Mar, 2024

MoMo: 一种用于文本、图像和多模态表示的共享编码器模型

本文提出了一种自主监督的共享编码器模型，在数据、内存和运行时效率高的同时，在几个视觉、语言和多模式基准测试中取得了强大结果。

Apr, 2023

多模态情感分析中的单模编码和跨模态预测的多模态对比学习

本文提出了一种名为 MultiModal Contrastive Learning (MMCL) 的新型框架，用于捕捉多模态表示中的内部和外部动态。我们采用对比学习技术，包括单模态对比编码和伪孪生网络，来过滤内嵌噪声和捕获跨模态动态。此外，我们设计了两种对比学习任务，实例和基于情感的对比学习，以促进预测过程并学习与情感相关的更多交互信息。在两个公共数据集上进行的广泛实验表明，我们的方法超过了现有的最先进方法。

Oct, 2022

多模态神经语言模型统一视觉 - 语义嵌入

本文提出了一种多模态学习的编码器 - 解码器模型，学习图像和文本的多模态联合嵌入空间和现代语言模型。使用 LSTM 进行句子编码，该模型在 Flickr8K 和 Flickr30K 数据集上表现出色。同时，该模型通过线性编码器捕捉到了空间算术中的多模态规律。

Nov, 2014

OPT: Omni-Perception Pre-Trainer 用于跨模态理解和生成

本文提出了一种跨模态的全视觉感知预训练器，其采用了多任务预训练策略从不同数据粒度学习了对图片、文字和音频的跨模态理解与生成。

Jul, 2021