CLAR: 对听觉特征的对比学习
本文介绍了一种基于 SimCLR 的 CLMR 框架,用于音乐领域的自监督、对比学习,采用一系列基于音频数据的增强技术,可以在无需标记的情况下学习有用的音乐表示,并在 MagnaTagATune 和 Million Song 数据集上进行了评估,在小型标记数据集下具有较高的精度。
Mar, 2021
COLA 是一种基于对比学习的自监督预训练方法,用于学习音频的通用表示,通过在大规模的 Audioset 数据库上进行预训练,使得其在包括语音、音乐、动物声音和声学场景等 9 项分类任务中性能显著优于之前的自监督系统,并进一步通过消融研究指出了关键的设计选择。
Oct, 2020
本文提出了一种名为 Speech SimCLR 的新自监督学习方法,通过对原始语音和其频谱图进行增强,结合对比损失最大化潜在空间中不同增强样本的一致性以及输入表示的重构损失函数进行训练,取得了在语音情感识别和语音识别上的良好结果。
Oct, 2020
SimCLR 是一种简单的对比学习框架,通过定义有效的预测任务、引入可学习的非线性变换以及使用大型批次和更多的训练步骤来提高对比学习的效果,在 ImageNet 数据集上实现了比以往方法更好的自监督和半监督学习结果。
Feb, 2020
提出了一种利用对比学习进行多语言语音和声音表示学习的新框架,旨在通过减少数据依赖性、改善各种语言和条件下的泛化能力,实现多语言共享表示,以便在有限的目标语言数据中促进跨语言转移。通过从多语言数据中自我监督学习情感表示,该方法在情感识别、音频分类和检索基准测试中展示了最先进的性能,为获得跨语言和声学条件下的共享和泛化语音表示提供了一种有效的方法。
Oct, 2023
本文提出了一种自我监督学习方法,用于学习视频的表示,结合了 RGB 帧和相关的音频,通过多模式对比目标来扩展时间自我监督的音频 - 视觉设置,并提出了新的对比目标。
Feb, 2023
本研究通过多种不同格式的单一模态对比学习框架,最大程度地提高音频表示的有效性,取得了一定的效果。在 AudioSet 和 ESC-50 分类任务上,我们的声音单一方法取得了新的最佳结果,平均精度为 0.376,准确率为 90.5%。
Mar, 2021
本文研究了不同对比自监督学习方案学习的音乐音频表示,并在不同的音乐信息检索任务中经验性地评估嵌入向量,以分析结果并讨论对不同 MIR 任务的适当对比学习策略方向,表明这些表示传达了关于音乐的听觉特征的综合信息,尽管每个自我监督策略在某些方面的信息方面有效。
Jul, 2022
通过多通道对比学习框架(MC-SimCLR),本研究展示了一个简单的方法来对空间音频的 'what' 和 'where' 进行编码。通过从无标签的空间音频中学习联合的频谱和空间表示,MC-SimCLR 能够在事件分类和声音定位等下游任务中提高效果。
Sep, 2023