时序自监督的音视频对比学习
该研究通过自监督的时间同步学习模型实现音频和视频分析的目的,模型能够在没有微调的情况下有效地识别出时序同步的音频-视频配对,并提供了一种非常有效的初始化方式以改善基于视频的动作识别模型的准确性。
Jun, 2018
文中介绍了一种自监督学习方法,通过交叉模态辨别视频和音频来学习视听表征,其采用对比学习方法来进行。该方法通过优化交叉模态辨别而非内部模态辨别,可以学习到来自视频和音频的良好表征,并可于行动识别任务中获得高竞争性能。同时,文中提到该方法采用交叉模态协同度量相似性,构造更好的正负样本集合,从而实现了对可视相似度的校准。
Apr, 2020
本研究探究了面部重建的视觉自监督方法辅助音频表示学习,提出了适用于语音表示学习的仅音频的自监督方法,比较了多任务的视听自监督与单一方式的自监督方法,发现视听自监督对于学习在噪声环境下更具有鲁棒性的特征更有益。同时,本研究发现自监督学习可以胜过全监督学习并防止过拟合,通过情感识别、自然语言识别等测试表明该方法成功提高了语音特征学习的效果。
May, 2020
该研究提出了一种通过结合音频自监督和视觉自监督来训练原始音频编码器生成说话者面部图像的自监督语音表示方法,从而为音频视觉语音的自监督学习提供了潜力。
Jul, 2020
本文提出了一种基于自我监督和共注意力机制的框架,通过区分具有关联性的视觉和声音信息,提出了三种不同的共注意力模块以训练神经网络,并通过测试了解了该方法的广泛和可转移性,成功地在先前的任务中取得了最先进的结果,解决了多声源场景的问题。
Aug, 2020
CrissCross 是一种自监督学习框架,用于学习音频和视觉之间的表示,它还可以学习异步交叉模态关系,通过在多项下游任务方面的表现显示其有效性,并在 Kinetics-Sound 数据集上实现了优于或不逊于当前自监督方法的表现,同时也提供了经过预训练的模型。
Nov, 2021
介绍了一种新的自监督对比学习方法,旨在从未标记的视频中学习表示。该方法利用新的约束条件,以建立对时间变换等价的表示,并更好地捕捉视频动态。实验表明,时间等变表示在UCF101,HMDB51和Diving48的视频检索和动作识别基准测试中实现了最先进的结果。
Dec, 2021
我们提出了更具挑战性的帧级自我监督任务和有效的增强策略,通过增加Transformer模型来训练从对比学习中预训练的单帧视频表示,大幅提升了通过时间自我监督学习到的特征的质量,并且在高水平语义任务和低水平时序任务上表现出卓越的性能。
Dec, 2023