通过使用多模态框架,在训练音频表征时利用视频信息和加入混合样本的数据增强,本研究的对比学习框架成功地实现了在非语义音频任务上的领先水平。
Apr, 2021
提出了一种利用对比学习进行多语言语音和声音表示学习的新框架,旨在通过减少数据依赖性、改善各种语言和条件下的泛化能力,实现多语言共享表示,以便在有限的目标语言数据中促进跨语言转移。通过从多语言数据中自我监督学习情感表示,该方法在情感识别、音频分类和检索基准测试中展示了最先进的性能,为获得跨语言和声学条件下的共享和泛化语音表示提供了一种有效的方法。
Oct, 2023
本文基于 SimCLR 的前期工作,提出了适用于音频数据的各种数据增强方案,并调查了它们对预测性能的影响,同时证明了采用时频音频特征训练,在监督和对比损失同时约束下的模型可以获得优秀的音频表示。在少量标注数据的情况下,该方法明显地改善了预测性能,同时比自监督训练更快地收敛并具有更好的表示能力。
Oct, 2020
本文介绍了一种新的跨模态知识迁移方法,使用组合对比学习来学习复合嵌入,通过学习多模态知识来改善视频表示学习表现。在三个视频数据集上进行的实验表明,该方法显著优于现有的知识蒸馏方法。
文中介绍了一种自监督学习方法,通过交叉模态辨别视频和音频来学习视听表征,其采用对比学习方法来进行。该方法通过优化交叉模态辨别而非内部模态辨别,可以学习到来自视频和音频的良好表征,并可于行动识别任务中获得高竞争性能。同时,文中提到该方法采用交叉模态协同度量相似性,构造更好的正负样本集合,从而实现了对可视相似度的校准。
Apr, 2020
本文探索了应用对比学习改进模态表征的方法,提出了三阶段的多视角对比学习框架,通过监督和自监督对比学习来改进单模态和融合的多模态表征,并成功提高了多模态情感分析任务的效果。
Oct, 2022
通过对音频和视频模态的对比学习,研究表明预训练网络在音乐视频的标签和流派分类任务上优于对比学习方法,通过定性分析了解对比学习在音乐视频中的困难并提出未来工作的可能方向。
Sep, 2023
本文提出了一种名为 MultiModal Contrastive Learning (MMCL) 的新型框架,用于捕捉多模态表示中的内部和外部动态。我们采用对比学习技术,包括单模态对比编码和伪孪生网络,来过滤内嵌噪声和捕获跨模态动态。此外,我们设计了两种对比学习任务,实例和基于情感的对比学习,以促进预测过程并学习与情感相关的更多交互信息。在两个公共数据集上进行的广泛实验表明,我们的方法超过了现有的最先进方法。
本研究旨在探讨通过自然语言与音频之间的跨模态学习实现音乐语义理解任务的方法,提出了一种名为 MusCALL 的框架,采用双重编码器架构进行跨模态学习,实现音频和描述语句的对齐,生成用于文本到音频和音频到文本检索的多模式嵌入,实验表明我们的方法在音频与文本检索任务中比基线方法表现更好,并且可成功扩展应用于流派分类和自动标签的零样本转移场景。
Aug, 2022
通过同时利用内部数据属性和跨模态关联的语义信息,开发了一种学习视觉表示形式的方法,其中包括多种类型的对比损失,从而提高了学习到的视觉表示的质量。该方法在 COCO 数据集上进行训练,可以被用于图像分类、目标检测、实例分割等下游任务,并在 ImageNet 数据集上实现了 55.3% 的顶级验证精度。