交叉学习:跨模态自监督
本研究提出了一个转移不同模态之间图像监督的技术,使用来自有标签模态的表示作为监督信号,训练适用于新的未标注配对模态的表示,实现了对未标注模态的丰富表示的学习,可用作具有有限标记数据的新模态的预训练过程
Jul, 2015
本文介绍了一种名为 CrossVideo 的新方法,旨在增强点云视频理解领域的自监督跨模态对比学习。通过利用点云视频和图像视频之间的跨模态关系获取有意义的特征表示,我们提出了一种自监督学习方法来解决数据稀缺和标签获取困难的问题。通过使用单模态和跨模态对比学习技术,我们实现了对点云视频的有效理解,并提出了一种适用于两种模态的多层对比方法。通过广泛的实验证明,我们的方法明显超过了先前的最先进方法,并进行了全面的消融研究来验证我们提出的设计的有效性。
Jan, 2024
本研究提出了一种新颖的 4D 雷达基于场景流估计的跨模态学习方法,并使用多任务模型体系结构和损失函数,来通过多重跨模态约束有效地进行模型训练,结果表明其在场景流估计上具有良好的表现和实用性。
Mar, 2023
本文介绍了一种利用视频中存在的三种模态(视觉、音频和语言),通过自监督学习来学习表示的方法,并引入了多模态多功能网络的概念 —— 一种可以吸收多种模态,其表示方法可以在多种模态下用于下游任务。通过这种方法,我们可以在多个具有挑战性的基准测试中获得最先进的性能。
Jun, 2020
通过利用跨模式和视角的对应关系,该论文提出了一种新颖且有效的自监督学习方法,联合学习 2D 图像特征和 3D 点云特征,并通过神经网络评估跨模态的对应关系,而无需使用人工标注标签。
Apr, 2020
本文旨在学习说话者身份的表示,利用自我监督学习目标,在视频中通过面部和音频之间的自然跨模态同步来实现。通过构建一个共享低级特征且提供自然机制来明确区分语言内容和说话者身份的双流架构,从而在大规模的 “野外” 对话者数据集上进行训练,并展示了其对于标准说话者识别性能的良好效果。
Feb, 2020
CrissCross 是一种自监督学习框架,用于学习音频和视觉之间的表示,它还可以学习异步交叉模态关系,通过在多项下游任务方面的表现显示其有效性,并在 Kinetics-Sound 数据集上实现了优于或不逊于当前自监督方法的表现,同时也提供了经过预训练的模型。
Nov, 2021
本文提出了一种自我监督学习方法,用于学习视频的表示,结合了 RGB 帧和相关的音频,通过多模式对比目标来扩展时间自我监督的音频 - 视觉设置,并提出了新的对比目标。
Feb, 2023
通过引入新颖的跨模态自监督训练框架,本文解决了点云方法中的假流和不一致性问题,提出了三种创新的监督信号来保留场景动作的内在属性,包括遮罩 Chamfer 距离损失、分段刚性损失和时间一致性损失,通过广泛实验证明,我们提出的自监督框架在动作预测任务中优于所有先前的自监督方法。
Jan, 2024