CLARA：音频表征获取的多语言对比学习

Oct, 2023

CLARA：音频表征获取的多语言对比学习

CLARA: Multilingual Contrastive Learning for Audio Representation Acquisition

Kari A Noriy, Xiaosong Yang, Marcin Budka, Jian Jun Zhang

TL;DR提出了一种利用对比学习进行多语言语音和声音表示学习的新框架，旨在通过减少数据依赖性、改善各种语言和条件下的泛化能力，实现多语言共享表示，以便在有限的目标语言数据中促进跨语言转移。通过从多语言数据中自我监督学习情感表示，该方法在情感识别、音频分类和检索基准测试中展示了最先进的性能，为获得跨语言和声学条件下的共享和泛化语音表示提供了一种有效的方法。

Abstract

This paper proposes a novel framework for multilingual speech and sound representation learning using contrastive learning. The lack of sizeable labelled datasets hinders speech-processing research across languag

multilingual speech contrastive learning emotional cues data augmentation shared speech representations

发现论文，激发创造

CLAR: 对听觉特征的对比学习

本文基于 SimCLR 的前期工作，提出了适用于音频数据的各种数据增强方案，并调查了它们对预测性能的影响，同时证明了采用时频音频特征训练，在监督和对比损失同时约束下的模型可以获得优秀的音频表示。在少量标注数据的情况下，该方法明显地改善了预测性能，同时比自监督训练更快地收敛并具有更好的表示能力。

Oct, 2020

音频表示的多格式对比学习

本研究通过多种不同格式的单一模态对比学习框架，最大程度地提高音频表示的有效性，取得了一定的效果。在 AudioSet 和 ESC-50 分类任务上，我们的声音单一方法取得了新的最佳结果，平均精度为 0.376，准确率为 90.5％。

Mar, 2021

跨语言视觉言语表征学习

本文探讨了跨语言自监督视觉表示学习，使用 Raw Audio-Visual Speech Encoders（RAVEn）框架对无标注的多语言数据进行预训练，然后用标记的转录 fine-tune 视觉模型，实验证明多语言模型优于单语言模型，多语言胜过英文预训练，使用相似的语言效果更好，而无标签的语言进行精调与使用目标语言在预训练集上进行竞争。

Mar, 2023

基于对比学习的语言无关多语种信息检索

通过利用平行语料库和非平行语料库，采用对比学习等方法，有效提高了预训练多语言语言模型的跨语言传递能力，同时显著提高了检索性能，且计算成本较低。

Oct, 2022

对比学习的多语言表征蒸馏

该研究加入对比学习以蒸馏多语言表示，并用于平行语句的质量估计。实验证明，该方法在不同的资源稀少语言上显著优于先前的句子编码器，诸如 LASER 等。

Oct, 2022

音乐对比语音学习

本研究旨在探讨通过自然语言与音频之间的跨模态学习实现音乐语义理解任务的方法，提出了一种名为 MusCALL 的框架，采用双重编码器架构进行跨模态学习，实现音频和描述语句的对齐，生成用于文本到音频和音频到文本检索的多模式嵌入，实验表明我们的方法在音频与文本检索任务中比基线方法表现更好，并且可成功扩展应用于流派分类和自动标签的零样本转移场景。

Aug, 2022

大规模对比语音语言预训练：特征融合与关键词生成式扩充

本文提出了一个对比学习的流程，通过语音数据和自然语言描述来开发一个音频表示，构建了一个对比语音 - 语言预训练模型，通过 LAION-Audio-630K 数据集，并将特征融合机制和关键词 - 标题增强等机制纳入模型设计来增强模型的处理能力，在三个任务中检验模型表现，取得了优秀的性能表现。

Nov, 2022

对比表示学习：框架与综述

本篇论文提供了 Contrastive Learning 的文献综述，并提出了一个通用的 Contrastive Representation Learning 框架，该框架简化并统一了许多不同的对比学习方法，并对对比学习的各个组成部分进行了分类。对于任何对比学习系统存在的规约偏差进行了分析和讨论，将我们的框架根据各种机器学习子领域的不同视角进行了分析。最后，介绍了对比学习在计算机视觉、自然语言处理、音频处理以及强化学习等领域的应用，以及未来研究方向中的挑战和一些最有前途的研究方向。

Oct, 2020

多模态情感分析中的单模编码和跨模态预测的多模态对比学习

本文提出了一种名为 MultiModal Contrastive Learning (MMCL) 的新型框架，用于捕捉多模态表示中的内部和外部动态。我们采用对比学习技术，包括单模态对比编码和伪孪生网络，来过滤内嵌噪声和捕获跨模态动态。此外，我们设计了两种对比学习任务，实例和基于情感的对比学习，以促进预测过程并学习与情感相关的更多交互信息。在两个公共数据集上进行的广泛实验表明，我们的方法超过了现有的最先进方法。

Oct, 2022

多模态自监督学习通用音频表示

通过使用多模态框架，在训练音频表征时利用视频信息和加入混合样本的数据增强，本研究的对比学习框架成功地实现了在非语义音频任务上的领先水平。

Apr, 2021