Jan, 2024

使用自监督技术学习歌手身份表示

TL;DR我们提出了一个框架,通过在大量的孤立音轨上应用不同的自监督学习技术以及数据增强,训练歌手身份编码器以提取适用于各种歌唱相关任务(如歌声相似性和合成)的表示,我们评估了产生的表示在多个数据集上进行歌手相似性和识别任务,并重点关注领域外泛化,我们的框架在 44.1 kHz 下产生高质量的嵌入,优于说话人验证和 wav2vec 2.0 预训练基线,在歌唱声音上,并发布了我们的代码和训练模型,以促进对歌唱声音和相关领域的进一步研究。