本文介绍了一种利用视频中存在的三种模态(视觉、音频和语言),通过自监督学习来学习表示的方法,并引入了多模态多功能网络的概念 —— 一种可以吸收多种模态,其表示方法可以在多种模态下用于下游任务。通过这种方法,我们可以在多个具有挑战性的基准测试中获得最先进的性能。
Jun, 2020
本研究通过多种不同格式的单一模态对比学习框架,最大程度地提高音频表示的有效性,取得了一定的效果。在 AudioSet 和 ESC-50 分类任务上,我们的声音单一方法取得了新的最佳结果,平均精度为 0.376,准确率为 90.5%。
Mar, 2021
本文提出了一种自我监督学习方法,用于学习视频的表示,结合了 RGB 帧和相关的音频,通过多模式对比目标来扩展时间自我监督的音频 - 视觉设置,并提出了新的对比目标。
Feb, 2023
本文介绍了在大规模多模式视频数据集上的自我监督学习的发展;提出了一种基于生成模型的方法,以翻译问题的形式解决了这一问题,并将其应用于多种下游视频理解任务中。结果表明,本方法在性能上优于基于对比度度量学习的方法。
本研究探究了面部重建的视觉自监督方法辅助音频表示学习,提出了适用于语音表示学习的仅音频的自监督方法,比较了多任务的视听自监督与单一方式的自监督方法,发现视听自监督对于学习在噪声环境下更具有鲁棒性的特征更有益。同时,本研究发现自监督学习可以胜过全监督学习并防止过拟合,通过情感识别、自然语言识别等测试表明该方法成功提高了语音特征学习的效果。
May, 2020
该研究提出了一种通过结合音频自监督和视觉自监督来训练原始音频编码器生成说话者面部图像的自监督语音表示方法,从而为音频视觉语音的自监督学习提供了潜力。
Jul, 2020
本文介绍了一种新的跨模态知识迁移方法,使用组合对比学习来学习复合嵌入,通过学习多模态知识来改善视频表示学习表现。在三个视频数据集上进行的实验表明,该方法显著优于现有的知识蒸馏方法。
Apr, 2021
文中介绍了一种自监督学习方法,通过交叉模态辨别视频和音频来学习视听表征,其采用对比学习方法来进行。该方法通过优化交叉模态辨别而非内部模态辨别,可以学习到来自视频和音频的良好表征,并可于行动识别任务中获得高竞争性能。同时,文中提到该方法采用交叉模态协同度量相似性,构造更好的正负样本集合,从而实现了对可视相似度的校准。
Apr, 2020
本文提出了一种用于医学图像处理的自监督学习方法,该方法可以从多通道超声视频和相应的言语音频数据中学习有意义的图像特征,评价结果表明该方法可以用于标准平面检测和视线预测等向下流任务。
Aug, 2020
本文基于 SimCLR 的前期工作,提出了适用于音频数据的各种数据增强方案,并调查了它们对预测性能的影响,同时证明了采用时频音频特征训练,在监督和对比损失同时约束下的模型可以获得优秀的音频表示。在少量标注数据的情况下,该方法明显地改善了预测性能,同时比自监督训练更快地收敛并具有更好的表示能力。
Oct, 2020