放松交叉模态同步的自监督音视频表示学习
本文提出了一种基于自我监督和共注意力机制的框架,通过区分具有关联性的视觉和声音信息,提出了三种不同的共注意力模块以训练神经网络,并通过测试了解了该方法的广泛和可转移性,成功地在先前的任务中取得了最先进的结果,解决了多声源场景的问题。
Aug, 2020
该研究通过自监督的时间同步学习模型实现音频和视频分析的目的,模型能够在没有微调的情况下有效地识别出时序同步的音频 - 视频配对,并提供了一种非常有效的初始化方式以改善基于视频的动作识别模型的准确性。
Jun, 2018
本文旨在学习说话者身份的表示,利用自我监督学习目标,在视频中通过面部和音频之间的自然跨模态同步来实现。通过构建一个共享低级特征且提供自然机制来明确区分语言内容和说话者身份的双流架构,从而在大规模的 “野外” 对话者数据集上进行训练,并展示了其对于标准说话者识别性能的良好效果。
Feb, 2020
文中介绍了一种自监督学习方法,通过交叉模态辨别视频和音频来学习视听表征,其采用对比学习方法来进行。该方法通过优化交叉模态辨别而非内部模态辨别,可以学习到来自视频和音频的良好表征,并可于行动识别任务中获得高竞争性能。同时,文中提到该方法采用交叉模态协同度量相似性,构造更好的正负样本集合,从而实现了对可视相似度的校准。
Apr, 2020
实现了基于交叉模态预测、自监督学习和深度聚类的方法,通过将一种模态的非监督聚类用作对另一种模态的监督信号来利用视觉和音频之间的语义相关性和差异,实现了在多个视频和音频数据集上优于其他方法的预训练模型,特别是通过仅使用大规模无标签数据预训练的视频模型,相比使用 ImageNet 和 Kinetics 数据进行了全监督预训练的同一架构,更显著地提高了在 HMDB51 和 UCF101 上的动作识别精度。
Nov, 2019
本文提出了一种自我监督学习方法,用于学习视频的表示,结合了 RGB 帧和相关的音频,通过多模式对比目标来扩展时间自我监督的音频 - 视觉设置,并提出了新的对比目标。
Feb, 2023
该论文提出了一种新的跨模态嵌入学习策略,通过多路匹配问题学习嵌入,显著提升了音频到视频同步任务的表现,并用学习到的嵌入进行自我监督的视觉语音识别。
Sep, 2018
该论文提出了一种新颖的深度学习算法,通过单流网络和新的损失函数来实现音频和视觉信息的联合表示,并使用类中心对共享的深层潜在空间表示进行表征,以实现无需成对或三重监督。在 VoxCeleb 数据集上的多种任务中进行了定量和定性评估,在跨模式验证和匹配方面实现了最先进的性能,验证了该技术在跨模式生物认证应用中的有效性。
Sep, 2019
该研究提出了一种通过结合音频自监督和视觉自监督来训练原始音频编码器生成说话者面部图像的自监督语音表示方法,从而为音频视觉语音的自监督学习提供了潜力。
Jul, 2020