通用音频表示的对比学习

Oct, 2020

Contrastive Learning of General-Purpose Audio Representations

Aaqib Saeed, David Grangier, Neil Zeghidour

TL;DRCOLA 是一种基于对比学习的自监督预训练方法，用于学习音频的通用表示，通过在大规模的 Audioset 数据库上进行预训练，使得其在包括语音、音乐、动物声音和声学场景等 9 项分类任务中性能显著优于之前的自监督系统，并进一步通过消融研究指出了关键的设计选择。

Abstract

We introduce cola, a self-supervised pre-training approach for learning a general-purpose representation of audio. Our approach is based on contrastive learning: it learns a representation which assigns high simi

cola self-supervised pre-training audio representation contrastive learning audioset

发现论文，激发创造

CLAR: 对听觉特征的对比学习

本文基于 SimCLR 的前期工作，提出了适用于音频数据的各种数据增强方案，并调查了它们对预测性能的影响，同时证明了采用时频音频特征训练，在监督和对比损失同时约束下的模型可以获得优秀的音频表示。在少量标注数据的情况下，该方法明显地改善了预测性能，同时比自监督训练更快地收敛并具有更好的表示能力。

Oct, 2020

COCOLA：面向一致性的音乐音频对比学习

COCOLA 是一种用于音乐音频表示的对比学习方法，捕捉样本之间的和谐和节奏的一致性，目的在于对音乐作品的组合模型进行伴奏生成的客观评估。我们还引入了基于 ControlNet 的音乐组合生成新基准 CompoNet，并使用 COCOLA 与 ControlNet 进行量化比较。我们公开发布了在包含不同音轨的公共数据集（MUSDB18-HQ、MoisesDB、Slakh2100 和 CocoChorales）上训练的所有模型。

Apr, 2024

BYOL 音频表示的自监督学习：用于通用音频表征

本研究提出了一种基于自我监督学习的通用音频表示学习方法，采用 Bootstrap Your Own Latent (BYOL) for Audio 方法，通过标准化和数据增强技术，从单个音频段中学习音频表示，在各种下游任务中实现了最先进的结果。

Mar, 2021

多模态自监督学习通用音频表示

通过使用多模态框架，在训练音频表征时利用视频信息和加入混合样本的数据增强，本研究的对比学习框架成功地实现了在非语义音频任务上的领先水平。

Apr, 2021

音乐音频表示的适当对比自监督学习策略

本文研究了不同对比自监督学习方案学习的音乐音频表示，并在不同的音乐信息检索任务中经验性地评估嵌入向量，以分析结果并讨论对不同 MIR 任务的适当对比学习策略方向，表明这些表示传达了关于音乐的听觉特征的综合信息，尽管每个自我监督策略在某些方面的信息方面有效。

Jul, 2022

CLARA：音频表征获取的多语言对比学习

提出了一种利用对比学习进行多语言语音和声音表示学习的新框架，旨在通过减少数据依赖性、改善各种语言和条件下的泛化能力，实现多语言共享表示，以便在有限的目标语言数据中促进跨语言转移。通过从多语言数据中自我监督学习情感表示，该方法在情感识别、音频分类和检索基准测试中展示了最先进的性能，为获得跨语言和声学条件下的共享和泛化语音表示提供了一种有效的方法。

Oct, 2023

CLAP：从自然语言监督中学习音频概念

提出一种基于自然语言监督学习的音频概念学习方法 CLAP，通过两个编码器和对比学习将音频和文本描述连接到多模态空间中，从而实现了零样本性能，其具有无需使用类别标签进行训练、预测灵活度高、具有多个下游任务通用性等优点。

Jun, 2022

对比环境声音表示学习

利用自监督对比技术和浅层 1D CNN 提取环境音频的显著特征，进一步使用规范相关分析（CCA）来融合来自给定音频的两种输入类型的表示，并证明融合的全局特征相对于单独的表示具有更强的鲁棒性。在 ESC-50 和 UrbanSound8K 上的评估表明，该技术能够提取环境声音的大部分特征，并分别在 ESC-50 和 UrbanSound8K 数据集上获得了 12.8％和 0.9％的改进。

Jul, 2022

音频 LDM 2：使用自监督预训练学习整体音频生成

该研究提出了一个框架，使用相同的学习方法进行语音、音乐和音效生成，引入了一种名为 “语言音频（LOA）” 的音频通用表示，并通过 AudioMAE 和潜在扩散模型进行自监督训练，实现了在文本到音频、文本到音乐和文本到语音等任务上的最先进性能。

Aug, 2023

使用基于对比学习预训练的机器 ID 声音表示进行异常声音检测

本文使用对比学习方法，针对每个机器 ID 而不是每个音频样本优化音频表示，使用自我监督 ID 分类器微调学习模型，增强了同一 ID 音频特征之间的关系，在 DCASE 2020 Challenge Task2 数据集上的实验表明，该方法在整体异常检测性能和稳定性方面胜过了使用对比学习或自我监督分类的最先进方法。

Apr, 2023