保留模态结构改善多模式学习

ICCVAug, 2023

Preserving Modality Structure Improves Multi-Modal Learning

Swetha Sirnam, Mamshad Nayeem Rizve, Nina Shvetsova, Hilde Kuehne, Mubarak Shah

TL;DR通过语义 - 结构保持一致性方法，在大规模多模态数据集上进行自监督学习，保留联合多模态表示空间中包含的模态特定关系以提高泛化性能。

Abstract

self-supervised learning on large-scale multi-modal datasets allows learning semantically meaningful embeddings in a joint multi-modal representation space without relying on human annotations. These joint embedd

self-supervised learning multi-modal datasets semantic-structure-preserving consistency multi-anchor assignment generalizability

发现论文，激发创造

医学图像分析的多模态自监督学习

该论文提出了一种利用多个成像模式的新型自监督方法，设计了一个多模式拼图任务以促进多种图像模式的特征表征，提出了一种利用跨模态生成技术进行多模态数据增强的方法，实验表明该方法能够提高数据效率和语义表征，广泛应用于四种不同的下游任务，并取得了领先的成果。

Dec, 2019

自我监督多任务学习的多模态情感分析中学习特定于感知模式的表示

本文设计了一个基于自监督学习策略的标签生成模块，通过联合训练多模态和单模态任务来分别学习一致性和差异，采用权重调整策略来平衡不同子任务的学习进度，验证了自动生成的单模态监督标签的可靠性和稳定性，超过了现有的最先进方法和人工注释的单模态标签。

Feb, 2021

用于自监督学习的多模聚类网络：来自无标签视频

本文提出了一个自监督训练框架，通过在训练管道中增加多模态聚类步骤以捕捉跨模态的语义相似性，进而学习一个共同的多模态嵌入空间，并证明其能在文本到视频检索和时间动作定位等两个具有挑战性的领域展示出四个不同数据集上的最新成果.

Apr, 2021

学习鲁棒的视觉 - 语义嵌入

该研究提出了一种基于无监督学习和深度神经网络的终端到终端学习框架，结合自编码器和最大均值差异损失来学习语义和视觉特征的联合嵌入，实现了跨域多模态表示的提取，并构建了更全面的标记和未标记数据的嵌入，帮助从归纳到传导的范围内解决零样本和少样本图像识别和检索等各种复杂任务。

Mar, 2017

多锚点主动域适应在语义分割中的应用

该研究提出了一种多锚点主动学习策略用于语义分割无监督领域适应，以缓解手动注释的工作量，并在公共数据集上大量提高性能。

Aug, 2021

多模态语义分割的自监督模型适应

提出了一种自适应动态融合多模态语义分割框架，采用自监督模型的融合机制来优化融合多模态特征，在物体类别、空间位置和场景上下文方面增强鲁棒性，同时提出了一种计算高效的 AdapNet ++ 单模分割体系结构，并获得了最新的性能。

Aug, 2018

保持语义领域对稳健跨模态检索的影响

本篇研究提出了一种方法，使用特定的 loss 函数，在保持图像和文本子空间内的语义连贯性的同时鼓励它们之间的语义协同，并改进了基线模型，以实现跨模态检索。

Jul, 2020

基于交叉模态学习的三维语义分割领域自适应

本文介绍了一种新的领域适应策略 - “交叉模态学习”，在无监督和半监督领域适应设置下，通过两种模式的相互模仿实现模态之间的一致性，在 3D 语义分割任务中证明了该方法的有效性

Jan, 2021

使用多模态变分自编码器和语义概念进行广义零样本学习

我们提出了一个多模态变分自编码器 (M-VAE)，能够在学习图像特征和语义空间之间的共享潜在空间上，通过使用多模态损失来拟合多模态数据。该方法可用于预测新样本，且实验结果表明在广义零样本学习方面，我们提出的模型优于当前最先进的方法。

Jun, 2021

视频和音频检索的跨模态嵌入

本文介绍了一种利用 YouTube-8M 数据库中视听文件间共同区域来建立联系以自主训练深度神经网络的方法，实现了跨模态特征学习的无监督方法，并得出了良好的检索结果。

Jan, 2018