本文提出了一种基于多模态学习的新型框架,可以从非同步的音频和视觉事件中学习,用于事件分类和定位。使用该方法可以取得弱标签音频事件视频大规模数据集的最先进结果。
Apr, 2018
该研究通过自监督的时间同步学习模型实现音频和视频分析的目的,模型能够在没有微调的情况下有效地识别出时序同步的音频-视频配对,并提供了一种非常有效的初始化方式以改善基于视频的动作识别模型的准确性。
Jun, 2018
该论文提出了一种新的跨模态嵌入学习策略,通过多路匹配问题学习嵌入,显著提升了音频到视频同步任务的表现,并用学习到的嵌入进行自我监督的视觉语音识别。
Sep, 2018
本文介绍了一种利用两种不同形式的信息进行自监督表示学习的方法。我们使用视频数据进行我们的方法,得到良好的性能,并证明我们的特征表示可以转移至其他任务。
Nov, 2018
实现了基于交叉模态预测、自监督学习和深度聚类的方法,通过将一种模态的非监督聚类用作对另一种模态的监督信号来利用视觉和音频之间的语义相关性和差异,实现了在多个视频和音频数据集上优于其他方法的预训练模型,特别是通过仅使用大规模无标签数据预训练的视频模型,相比使用 ImageNet 和 Kinetics 数据进行了全监督预训练的同一架构,更显著地提高了在 HMDB51 和 UCF101 上的动作识别精度。
Nov, 2019
文中介绍了一种自监督学习方法,通过交叉模态辨别视频和音频来学习视听表征,其采用对比学习方法来进行。该方法通过优化交叉模态辨别而非内部模态辨别,可以学习到来自视频和音频的良好表征,并可于行动识别任务中获得高竞争性能。同时,文中提到该方法采用交叉模态协同度量相似性,构造更好的正负样本集合,从而实现了对可视相似度的校准。
Apr, 2020
该研究提出了一种通过结合音频自监督和视觉自监督来训练原始音频编码器生成说话者面部图像的自监督语音表示方法,从而为音频视觉语音的自监督学习提供了潜力。
Jul, 2020
本文提出了一种基于自我监督和共注意力机制的框架,通过区分具有关联性的视觉和声音信息,提出了三种不同的共注意力模块以训练神经网络,并通过测试了解了该方法的广泛和可转移性,成功地在先前的任务中取得了最先进的结果,解决了多声源场景的问题。
Aug, 2020
本文介绍了一种自监督学习方法,以学习音频和视频表征,并通过行动识别任务的实验验证了其解决音频-视觉实例区别问题和提高迁移学习性能的贡献。
Mar, 2021
本文提出了一种自我监督学习方法,用于学习视频的表示,结合了RGB帧和相关的音频,通过多模式对比目标来扩展时间自我监督的音频-视觉设置,并提出了新的对比目标。
Feb, 2023