从合成音频 Doppelgangers 进行对比学习
研究了在音频与视觉之间进行对应时,出现多个音频轨道时的学习效果,探讨了使用配音版本来增加跨模态对比学习的方法,提出了考虑语音变化时学习场景级别的音频视觉对应关系的重要性,并表明配音可以作为训练音频视觉模型的一种有用增强技术。
Apr, 2023
本文介绍了将对比学习扩展到更广泛的数据变换集合,并提出了一种满足所有对比公式要求的实用构造,其中所有噪声对比公式的组件都被表述为一定的广义数据变换选择(GDTs),通过对视频数据进行分析,得出了在学习有效视频表示时对某些变换具有不变性和对其他变换具有特征性的关键作用,这一结果大幅改善了多个学习基准,甚至超过了监督预训练。
Mar, 2020
最近基础模型的进展使得能够生成与音乐、事件和人类活动相关的高保真声音的音频生成模型成为可能。尽管现代音频生成模型取得了成功,但传统的音频生成质量评估方法主要依赖于类似 Frechet Audio Distance 的距离度量。相比之下,本文旨在通过检验将其作为训练数据使用的效果来评估音频生成的质量,在这方面我们进行了一系列的研究。具体地,我们进行了使用合成音频进行音频识别的实验,同时探索了合成音频在语音相关建模中作为数据增强资源的潜力。全面的实验结果显示了使用合成音频进行音频识别和语音相关建模的潜力。我们的代码可在此 https URL 中获得。
Jun, 2024
本文介绍了将对比学习的思想应用于音频指纹(AFP)任务中的方法,并基于动量对比(MoCo)框架设计了一种对比学习方法以生成既具有区分性又具有鲁棒性的指纹,并对其在音频识别中的有效性进行了实验证明。
Oct, 2020
提出了一种利用对比学习进行多语言语音和声音表示学习的新框架,旨在通过减少数据依赖性、改善各种语言和条件下的泛化能力,实现多语言共享表示,以便在有限的目标语言数据中促进跨语言转移。通过从多语言数据中自我监督学习情感表示,该方法在情感识别、音频分类和检索基准测试中展示了最先进的性能,为获得跨语言和声学条件下的共享和泛化语音表示提供了一种有效的方法。
Oct, 2023
本文基于 SimCLR 的前期工作,提出了适用于音频数据的各种数据增强方案,并调查了它们对预测性能的影响,同时证明了采用时频音频特征训练,在监督和对比损失同时约束下的模型可以获得优秀的音频表示。在少量标注数据的情况下,该方法明显地改善了预测性能,同时比自监督训练更快地收敛并具有更好的表示能力。
Oct, 2020
我们通过广泛的实验验证了我们的合成数据在各种图像分类任务中的有效性,既可以替代真实数据集,也可以作为其增强,同时也有益于挑战性任务,如超出分布的泛化和隐私保护。
Oct, 2023
我们通过自监督对比学习的方法,研究了如何减轻多模态音乐检索模型中标注数据稀缺的限制,并提出了经过预训练的模型能够更好地检索音乐片段,并在交叉模态的作品识别任务中获得更好的检索质量的观察结果。
Sep, 2023
本文使用对比学习方法,针对每个机器 ID 而不是每个音频样本优化音频表示,使用自我监督 ID 分类器微调学习模型,增强了同一 ID 音频特征之间的关系,在 DCASE 2020 Challenge Task2 数据集上的实验表明,该方法在整体异常检测性能和稳定性方面胜过了使用对比学习或自我监督分类的最先进方法。
Apr, 2023
本文提出了一种特征级方法,即采样合成难负样本用于对比学习(SSCL),以更有效地利用更难的负样本。该方法通过混合负样本生成更多且更难的负样本,然后通过控制锚定样本与其他负样本的对比度的方式进行采样,并且考虑到假负样本的可能性进一步消除了负样本。这种方法提高了不同图像数据集的分类性能,并可以轻松集成到现有方法中。
Apr, 2023