CLAR: 对听觉特征的对比学习

Oct, 2020

CLAR: Contrastive Learning of Auditory Representations

Haider Al-Tahan, Yalda Mohsenzadeh

TL;DR本文基于 SimCLR 的前期工作，提出了适用于音频数据的各种数据增强方案，并调查了它们对预测性能的影响，同时证明了采用时频音频特征训练，在监督和对比损失同时约束下的模型可以获得优秀的音频表示。在少量标注数据的情况下，该方法明显地改善了预测性能，同时比自监督训练更快地收敛并具有更好的表示能力。

Abstract

Learning rich visual representations using contrastive self-supervised learning has been extremely successful. However, it is still a major question whether we could use a similar approach to learn superior auditory representations. In this paper, we expand on prior work (SimCLR) to learn better →

contrastive self-supervised learning auditory representations data augmentations time-frequency audio features supervised and contrastive losses

发现论文，激发创造

音乐表征的对比学习

本文介绍了一种基于 SimCLR 的 CLMR 框架，用于音乐领域的自监督、对比学习，采用一系列基于音频数据的增强技术，可以在无需标记的情况下学习有用的音乐表示，并在 MagnaTagATune 和 Million Song 数据集上进行了评估，在小型标记数据集下具有较高的精度。

Mar, 2021

通用音频表示的对比学习

COLA 是一种基于对比学习的自监督预训练方法，用于学习音频的通用表示，通过在大规模的 Audioset 数据库上进行预训练，使得其在包括语音、音乐、动物声音和声学场景等 9 项分类任务中性能显著优于之前的自监督系统，并进一步通过消融研究指出了关键的设计选择。

Oct, 2020

Speech SIMCLR：将对比和重构目标相结合，实现自我监督语音表示学习

本文提出了一种名为 Speech SimCLR 的新自监督学习方法，通过对原始语音和其频谱图进行增强，结合对比损失最大化潜在空间中不同增强样本的一致性以及输入表示的重构损失函数进行训练，取得了在语音情感识别和语音识别上的良好结果。

Oct, 2020

视觉表示对比学习的简单框架

SimCLR 是一种简单的对比学习框架，通过定义有效的预测任务、引入可学习的非线性变换以及使用大型批次和更多的训练步骤来提高对比学习的效果，在 ImageNet 数据集上实现了比以往方法更好的自监督和半监督学习结果。

Feb, 2020

CLARA：音频表征获取的多语言对比学习

提出了一种利用对比学习进行多语言语音和声音表示学习的新框架，旨在通过减少数据依赖性、改善各种语言和条件下的泛化能力，实现多语言共享表示，以便在有限的目标语言数据中促进跨语言转移。通过从多语言数据中自我监督学习情感表示，该方法在情感识别、音频分类和检索基准测试中展示了最先进的性能，为获得跨语言和声学条件下的共享和泛化语音表示提供了一种有效的方法。

Oct, 2023

时序自监督的音视频对比学习

本文提出了一种自我监督学习方法，用于学习视频的表示，结合了 RGB 帧和相关的音频，通过多模式对比目标来扩展时间自我监督的音频 - 视觉设置，并提出了新的对比目标。

Feb, 2023

音频表示的多格式对比学习

本研究通过多种不同格式的单一模态对比学习框架，最大程度地提高音频表示的有效性，取得了一定的效果。在 AudioSet 和 ESC-50 分类任务上，我们的声音单一方法取得了新的最佳结果，平均精度为 0.376，准确率为 90.5％。

Mar, 2021

音乐音频表示的适当对比自监督学习策略

本文研究了不同对比自监督学习方案学习的音乐音频表示，并在不同的音乐信息检索任务中经验性地评估嵌入向量，以分析结果并讨论对不同 MIR 任务的适当对比学习策略方向，表明这些表示传达了关于音乐的听觉特征的综合信息，尽管每个自我监督策略在某些方面的信息方面有效。

Jul, 2022

多模态自监督学习通用音频表示

通过使用多模态框架，在训练音频表征时利用视频信息和加入混合样本的数据增强，本研究的对比学习框架成功地实现了在非语义音频任务上的领先水平。

Apr, 2021

自监督对比学习中的空间声音事件表征探索

通过多通道对比学习框架（MC-SimCLR），本研究展示了一个简单的方法来对空间音频的 'what' 和 'where' 进行编码。通过从无标签的空间音频中学习联合的频谱和空间表示，MC-SimCLR 能够在事件分类和声音定位等下游任务中提高效果。

Sep, 2023