自监督多模态表征学习和基础模型调查

Nov, 2022

自监督多模态表征学习和基础模型调查

Survey on Self-Supervised Multimodal Representation Learning and Foundation Models

Sushil Thapa

TL;DR本文总结了一些具有里程碑意义的研究论文，直接或间接地构建了当今多模态自我监督学习的基础。该文章回顾了过去几年中用于每种模态的表示学习的发展情况，以及它们如何组合成多模态智能体。

Abstract

deep learning has been the subject of growing interest in recent years. Specifically, a specific type called multimodal learning has shown great promise for solving a wide range of problems in domains such as lan

deep learning multimodal learning representation learning self-supervised learning large-scale datasets

发现论文，激发创造

自监督学习方法综述：提高多模态表示学习的有效性

本文总结了最佳自监督学习方法在多模态学习的应用，包括跨模态生成、跨模态预训练、循环翻译和自监督统一模态标签生成等。

Oct, 2022

自监督多模态学习：综述

本综述论文介绍了自监督多模态学习（SSML）的现状和最新进展，对其目标函数、数据对准和模型架构三个方面进行分类，讨论了训练期间的多模态输入数据配对和对准策略，并回顾了用于图像文本和多模态视频的顶尖模型的具体表现及其在医疗保健、遥感和机器翻译等领域的实际应用。

Mar, 2023

自监督多模态通用网络

本文介绍了一种利用视频中存在的三种模态（视觉、音频和语言），通过自监督学习来学习表示的方法，并引入了多模态多功能网络的概念 —— 一种可以吸收多种模态，其表示方法可以在多种模态下用于下游任务。通过这种方法，我们可以在多个具有挑战性的基准测试中获得最先进的性能。

Jun, 2020

多模态智能：表示学习、信息融合与应用

本文综述了多模态智能领域中的各种模型和学习方法。主要关注点是视觉和自然语言模态的组合，涵盖了多模态表示学习、多模态信号融合以及多模态应用等方面，旨在为相关社群未来的研究提供参考。

Nov, 2019

自监督语音表示学习：综述

本论文综述了自监督语音表示学习的方法及其与其他研究领域的联系，讨论了将学习到的表示推广到语音识别以外的应用的最新研究进展。

May, 2022

自我监督多任务学习的多模态情感分析中学习特定于感知模式的表示

本文设计了一个基于自监督学习策略的标签生成模块，通过联合训练多模态和单模态任务来分别学习一致性和差异，采用权重调整策略来平衡不同子任务的学习进度，验证了自动生成的单模态监督标签的可靠性和稳定性，超过了现有的最先进方法和人工注释的单模态标签。

Feb, 2021

多模态表示学习：演进、预训练及其应用的综述

本综述论文全面介绍了深度学习多模态体系结构的演变和增强，以应对文本、视觉和音频特征的多样化跨模态和现代多模态任务：包括最新的任务特定的深度学习方法，多模态预训练目标，以及从最先进的预训练多模态方法到统一体系结构。本文结合具体数据集和案例分析展示多模态学习的挑战、间隔和潜在研究主题。

Feb, 2023

自监督表示学习：介绍、进展与挑战

介绍了自监督学习的基本概念、方法和应用，探讨了自监督学习在不同数据模态下的表现，包括图像、视频、音频和文本，并讨论了其实用性和存在的问题。

Oct, 2021

视频自监督学习综述

本篇综述论文讨论了自监督学习在视频领域的应用，主要归纳了四种不同的自监督学习方法，分别为预测任务、生成式学习、对比学习和跨模态协议，并讨论了现有方法的局限性和未来发展方向。

Jun, 2022

多模态自监督学习通用音频表示

通过使用多模态框架，在训练音频表征时利用视频信息和加入混合样本的数据增强，本研究的对比学习框架成功地实现了在非语义音频任务上的领先水平。

Apr, 2021