音乐中语音自我监督学习的有效性研究

Jul, 2023

音乐中语音自我监督学习的有效性研究

On the Effectiveness of Speech Self-supervised Learning for Music

Yinghao Ma, Ruibin Yuan, Yizhi Li, Ge Zhang, Xingran Chen...

TL;DR通过使用两个音频方案 data2vec1.0 和 Hubert，我们训练了 $12$ 个自监督学习模型，并在 13 个不同的音乐信息检索任务中进行系统评估。我们的研究表明，使用音乐数据进行训练可以提高 MIR 任务性能，即使使用的是设计用于语音的模型，也能取得效果。但是，我们还发现现有的语音定向设计存在一些局限性，特别是在多声部信息建模方面。因此，我们为未来的音乐自监督学习策略和范式提供了实证建议。

Abstract

self-supervised learning (SSL) has shown promising results in various speech and natural language processing applications. However, its efficacy in music information retrieval (MIR) still remains largely unexplored. While previous SSL models pre-trained on music recordings may have bee

self-supervised learning music information retrieval data2vec1.0 hubert mir task performance

发现论文，激发创造

探究自监督预训练模型的集成特征在自动语音识别中的应用

本文介绍使用多个基于自监督学习的模型以及它们所提取特征的集成方法，改善语音识别任务的性能，并使用三种自监督模型 HuBERT、Wav2vec2.0 和 WaveLM 进行了实验，得到了较好的效果。

Jun, 2022

MERT：音乐声学理解模型及大规模自监督训练

利用自监督学习方法，结合教师模型的音乐理解模型能够在大规模数据上，通过留声机和 Constant-Q Transform 等多种教师模型的指导，将 BERT-style transformer encoder 更好地应用于音乐领域，提升了音乐检索等 14 项任务的表现。

May, 2023

自我监督表示在自动语音识别中的高效注入

我们提出了两种简单的方法，使用逐帧加法和交叉注意机制来高效地将自监督学习模型的表示纳入 ASR 架构，从而在训练期间避免使用自监督学习模型，加快了训练速度，并在 Librispeech 和 Tedlium 数据集上相较于基准模型实现了显著性能提升。

Apr, 2024

探索基于自监督多视角对比学习在有限标注下的语音情感识别

提出了一种多视角的自监督学习预训练技术，用于改善情感识别在数据标注有限的情况下的性能，实验证明该框架能够提高业绩。

Jun, 2024

Wav2Vec-Aug: 有限数据下的改进自监督训练

本文探讨了如何利用数据增强技术来解决语言和领域中数据不足的问题，从而在限制条件下将自监督学习应用于语音表示方面，并在 Wav2Vec 2.0 预训练模型的每个组成部分上提出了改进方法，在 Librispeech 的测试任务中比 Wav2Vec 2.0 实现了 13％的相对字错误率改进。

Jun, 2022

MAP-Music2Vec：自监督音乐音频表示学习的简单有效基准

Music2Vec 是一种基于自监督学习算法的音乐原始波形有用特征表示学习的框架，参数数量大幅少于现有的音乐自监督学习框架，但表现与现有最优解相当，该模型将在 Huggingface 发布。

Dec, 2022

自监督语音模型在音频表示方面的功效

本研究提出融合自监督学习语音模型嵌入的集成框架，旨在探究其在音频和非语音任务中的表示能力，实验证明该框架普遍优于当前最先进的自监督学习语音 / 音频模型，特别在面对细粒度音乐任务时也表现出强大的能力。

Sep, 2022

MOS 预测系统中语音表示的比较

本研究比较了自监督学习特征和谱特征的性能，并结合了两者以提高自动 MOS 的准确性。使用大规模听力测试语料库，发现 wav2vec 特征具有最佳的泛化能力，且结合特征组合表现最佳。

Jun, 2022

基于适配器的预训练方法用于高效可扩展的自监督语音表征学习

本文介绍了一种方法，可以将预先训练的自我监督（SSL）语音表示转移到多种语言中，使用适配器模块加快新语言任务的预训练，并在不遗忘先前语言表示的情况下学习新的音频 - 语言表示，然后应用这些语言表示进行自动语音识别。

Jul, 2021

自我监督语音模型的有效蒸馏在自动语音识别中的应用探究

本文旨在研究将 HuBERT 基于自监督学习的模型进行有效的蒸馏，用于自动语音识别。我们进行了综合研究，设计了一种简单有效的算法，将参数减少 17％，将推理速度翻倍，同时又能在功能上达到满意的性能降级。

Oct, 2022