本文总结了最佳自监督学习方法在多模态学习的应用,包括跨模态生成、跨模态预训练、循环翻译和自监督统一模态标签生成等。
Oct, 2022
本综述论文介绍了自监督多模态学习(SSML)的现状和最新进展,对其目标函数、数据对准和模型架构三个方面进行分类,讨论了训练期间的多模态输入数据配对和对准策略,并回顾了用于图像文本和多模态视频的顶尖模型的具体表现及其在医疗保健、遥感和机器翻译等领域的实际应用。
Mar, 2023
本文介绍了一种利用视频中存在的三种模态(视觉、音频和语言),通过自监督学习来学习表示的方法,并引入了多模态多功能网络的概念 —— 一种可以吸收多种模态,其表示方法可以在多种模态下用于下游任务。通过这种方法,我们可以在多个具有挑战性的基准测试中获得最先进的性能。
Jun, 2020
本文综述了多模态智能领域中的各种模型和学习方法。主要关注点是视觉和自然语言模态的组合,涵盖了多模态表示学习、多模态信号融合以及多模态应用等方面,旨在为相关社群未来的研究提供参考。
Nov, 2019
本论文综述了自监督语音表示学习的方法及其与其他研究领域的联系,讨论了将学习到的表示推广到语音识别以外的应用的最新研究进展。
May, 2022
本文设计了一个基于自监督学习策略的标签生成模块,通过联合训练多模态和单模态任务来分别学习一致性和差异,采用权重调整策略来平衡不同子任务的学习进度,验证了自动生成的单模态监督标签的可靠性和稳定性,超过了现有的最先进方法和人工注释的单模态标签。
Feb, 2021
本综述论文全面介绍了深度学习多模态体系结构的演变和增强,以应对文本、视觉和音频特征的多样化跨模态和现代多模态任务:包括最新的任务特定的深度学习方法,多模态预训练目标,以及从最先进的预训练多模态方法到统一体系结构。本文结合具体数据集和案例分析展示多模态学习的挑战、间隔和潜在研究主题。
Feb, 2023
介绍了自监督学习的基本概念、方法和应用,探讨了自监督学习在不同数据模态下的表现,包括图像、视频、音频和文本,并讨论了其实用性和存在的问题。
Oct, 2021
本篇综述论文讨论了自监督学习在视频领域的应用,主要归纳了四种不同的自监督学习方法,分别为预测任务、生成式学习、对比学习和跨模态协议,并讨论了现有方法的局限性和未来发展方向。
Jun, 2022
通过使用多模态框架,在训练音频表征时利用视频信息和加入混合样本的数据增强,本研究的对比学习框架成功地实现了在非语义音频任务上的领先水平。
Apr, 2021