使用自监督技术学习歌手身份表示

Jan, 2024

使用自监督技术学习歌手身份表示

Singer Identity Representation Learning using Self-Supervised Techniques

Bernardo Torres, Stefan Lattner, Gaël Richard

TL;DR我们提出了一个框架，通过在大量的孤立音轨上应用不同的自监督学习技术以及数据增强，训练歌手身份编码器以提取适用于各种歌唱相关任务（如歌声相似性和合成）的表示，我们评估了产生的表示在多个数据集上进行歌手相似性和识别任务，并重点关注领域外泛化，我们的框架在 44.1 kHz 下产生高质量的嵌入，优于说话人验证和 wav2vec 2.0 预训练基线，在歌唱声音上，并发布了我们的代码和训练模型，以促进对歌唱声音和相关领域的进一步研究。

Abstract

Significant strides have been made in creating voice identity representations using speech data. However, the same level of progress has not been achieved for singing voices. To bridge this gap, we suggest a framework for training singer identity encoders to extract representations sui

singer identity encoders singing voice similarity self-supervised learning techniques out-of-domain generalization embeddings

发现论文，激发创造

无监督唱声转换

该论文提出了一种基于深度学习的歌唱声音转换方法，该方法不需要以文本或音符为条件，并可直接将一个歌手的音频转换为另一个歌手的声音。通过使用单个 CNN 编码器和一个分类器来进行训练和模型改进，每个歌手都表示为一个嵌入式向量，以便检测其独特的音乐特征。通过使用数据增强技术以及新的训练损失和基于后转换的协议，该方法在较小的数据集上取得了良好的效果。

Apr, 2019

利用预训练的自监督前端实现自动唱歌声音理解任务：三个案例研究

本文探讨了无监督自学习模型在歌唱声音识别中的有效性和表现，并对其实验结果和行为进行了分析。

Jun, 2023

无监督跨域歌声转换

本文提出了一种无需手动监督的端对端 wav 到 wav 生成模型，用于实现任意身份的歌声转换，该模型利用音响模型和提取的旋律特征来驱动基于波形的生成器，经实验证明，在音频质量方面表现显著优于基线方法。

Aug, 2020

自监督语音表示保留语音特征同时实现匿名化

本文旨在研究如何使用基于自监督语音表征的语音转换模型匿名处理声音数据，结果表明用这种方法匿名化处理的语音可以维持原始语音低的误识别率，但对于说话人验证存在性能下降的问题。此外，本文的研究还能以匿名的方式提取出健康语言和病理语言之间的区别语音特征。

Apr, 2022

自监督语音表示学习：综述

本论文综述了自监督语音表示学习的方法及其与其他研究领域的联系，讨论了将学习到的表示推广到语音识别以外的应用的最新研究进展。

May, 2022

SPA-SVC：自我监督的歌声转换中的音高增强

在这篇论文中，我们提出了一种自监督的 SPA-SVC 方法，该方法可以改善 SVC 任务中的声音质量，无需额外的数据或增加模型参数。我们通过引入循环音高转换训练策略和结构相似性指数（SSIM）损失，有效提升了 SVC 模型的性能，实验结果表明我们的方法在一般的 SVC 场景和跨域 SVC 场景中都显著提高了模型性能。

Jun, 2024

歌声转换的潜在回归损失比较分析

本文提出一种基于歌唱声音转换（SVC）的损失函数的替代损失组件，该组件通过歌手身份嵌入网络（SIE）来测量音频转换的相似度，在实验中表现出较好的转换效果。

Feb, 2023

wav2vec 2.0：自监督学习语音表示的框架

本研究首次证明了从语音音频中学习强大的表征，然后在经过转录的语音上进行微调可以胜过最好的半监督方法，而且概念上更简单，示范了在有限标注数据情况下实现语音识别的可行性。

Jun, 2020

提升歌声合成表达力的方向：基于 BERT 派生语义信息

该研究介绍了一种端到端的高质量歌声合成（SVS）系统，其使用来自 Transformers（BERT）的双向编码器表示衍生的语义嵌入来提高合成歌声的表现力。

Aug, 2023

大规模自监督语音表征学习用于自动化说话者验证

使用预训练模型学习到的语音表示作为输入特征，采用可学习权重的平均表示方法，在 Voxceleb 数据集上进行了自我监督训练，实现了自动说话人验证，在三个官方测试中分别取得了 0.537％、0.569％和 1.180％的等误差率（EER），超越了 VoxCeleb Speaker Recognition Challenge 2021 (VoxSRC2021) 中的优胜系统。

Oct, 2021