利用预训练的自监督前端实现自动唱歌声音理解任务：三个案例研究

Jun, 2023

利用预训练的自监督前端实现自动唱歌声音理解任务：三个案例研究

Toward Leveraging Pre-Trained Self-Supervised Frontends for Automatic Singing Voice Understanding Tasks: Three Case Studies

PDF

Yuya Yamamoto

TL;DR本文探讨了无监督自学习模型在歌唱声音识别中的有效性和表现，并对其实验结果和行为进行了分析。

Abstract

automatic singing voice understanding tasks, such as singer identification, singing voice transcription, and singing technique classification

automatic singing voice understanding deep learning techniques self-supervised learning models singer identification singing technique classification

发现论文，激发创造

自监督学习对语音识别的受益及演讲者识别

本研究通过 Voxceleb-1 数据集进行了一系列实验来探究自监督学习在演讲者相关任务中表现良好的因素，结果表明模型的收益来源于语音预测损失、数据规模和模型大小的组合，同时自监督量化器的影响较小。我们进一步采用了集成梯度属性方法和损失函数可视化的方法来理解自监督学习对演说者识别性能的有效性。

Apr, 2022

音频自监督学习：综述

本文综述了自监督学习在音频处理和语音处理领域中的应用，包括方法、实验和基准数据，并讨论了未来发展方向和存在的问题。

Mar, 2022

使用自监督技术学习歌手身份表示

我们提出了一个框架，通过在大量的孤立音轨上应用不同的自监督学习技术以及数据增强，训练歌手身份编码器以提取适用于各种歌唱相关任务（如歌声相似性和合成）的表示，我们评估了产生的表示在多个数据集上进行歌手相似性和识别任务，并重点关注领域外泛化，我们的框架在 44.1 kHz 下产生高质量的嵌入，优于说话人验证和 wav2vec 2.0 预训练基线，在歌唱声音上，并发布了我们的代码和训练模型，以促进对歌唱声音和相关领域的进一步研究。

Jan, 2024

利用大规模 ASR 模型，在自监督学习中追求说话者验证的有监督性能

自我监督学习在发音验证中表现出与有监督系统相近的性能，本研究通过对预训练的 WavLM 进行自我监督有监督微调并使用伪标签，实现了语音表示学习中的有监督性能，取得了 0.99％的 EER，接近有监督基线 0.94％的 EER。

Jun, 2024

分析影响基于自监督预训练表示在语音识别中的有效性因素

本文研究了在低资源环境下建立自动语音识别（ASR）系统的方法，发现自我监督学习预训练数据的相似性和数量对系统性能有显著影响，希望为语音领域改进 SSL-based 预训练模型的泛化性能提供指导。

Mar, 2022

基于音频的情绪识别的自监督学习

情感识别通过音频输入数据的模型可以实现在心理健康、营销、游戏和社交媒体分析等领域的交互式系统的发展。

Jul, 2023

多任务自监督预训练用于音乐分类

本文研究应用自监督学习和多任务学习方法预训练音乐编码器，探索编码器结构、损失权重和自监督任务选择对下游音乐分类任务的影响。研究发现，使用多种音乐特定的自监督任务，结合合理的损失权重平衡，可以提高和推广到下游任务。

Feb, 2021

在实际应用中应用自监督学习，实现混合式自动语音识别

本文讨论了如何利用未经筛选的音频数据进行自监督学习，在数据预处理到部署流式混合语音识别模型的整个过程中研究了多种不同的预训练策略，比较了近期开发的对比损失，并通过实验结果表明，利用领域内未筛选数据进行自监督学习的表现比领域外其他预训练策略要好。

May, 2022

通过简化的自监督语音表示实现低资源跨领域歌唱声音合成

本文提出了一种仅使用文本和语音数据训练的多说话人声音合成模型 Karaoker-SSL，它是一个低资源流程，不需要使用任何歌唱数据，因为它的声码器也是在语音数据上训练的。通过无监督方式，Karaoker-SSL 通过自监督语音表示对其进行调节。为了在训练过程中间接指导条件模块捕捉风格信息，使用了一个基于 Conformer 的模块，该模块从声学模型的输出中预测音高。因此，Karaoker-SSL 允许进行歌声合成而不依赖于手工制作的专门领域特征。此外，它不需要文本对齐或歌词时间戳。为了改善声音质量，我们采用了一个以目标说话人为条件的 U-Net 鉴别器，并采用了 Diffusion GAN 训练方案。

Feb, 2024

探索基于自监督多视角对比学习在有限标注下的语音情感识别

提出了一种多视角的自监督学习预训练技术，用于改善情感识别在数据标注有限的情况下的性能，实验证明该框架能够提高业绩。

Jun, 2024