言不足以表达：歌唱语音识别中的进展与挑战

Mar, 2024

言不足以表达：歌唱语音识别中的进展与挑战

More than words: Advancements and challenges in speech recognition for singing

Anna Kruspe

TL;DR本文旨在探讨歌唱领域中的语音识别挑战和进展，包括音高变化、各种歌唱风格和背景音乐干扰等唱歌所特有的挑战。我们研究了音素识别、歌曲中的语言识别、关键词检测和完整歌词转写等关键领域。通过描述作者在这些任务刚开始崭露头角的研究经历，同时还介绍了近期深度学习和大规模数据集方面的新进展如何推动了该领域的进步。本文的目标是阐明将语音识别技术应用于歌唱中的复杂性，评估当前的能力，并提出未来的研究方向。

Abstract

This paper addresses the challenges and advancements in speech recognition for singing, a domain distinctly different from standard speech recognition. Singing encompasses unique challenges, including extensive pitch variations, diverse vocal styles, and background music interference. We explore key areas such as →

speech recognition for singing phoneme recognition language identification in songs keyword spotting full lyrics transcription

发现论文，激发创造

深度学习在歌唱处理中的应用：成就、挑战及对歌手和听众的影响

本文概述了利用最先进的深度学习技术处理歌唱任务的最新进展，讨论了它们在精度和音质方面的成就以及目前面临的挑战，如可用数据和计算资源的情况，同时探讨了当这些进展应用于商业应用时对听众和歌手的影响。

Jul, 2018

重访唱歌声音检测：定量回顾与未来展望

该论文对三个现有歌声识别系统进行了误差分析，并设计了新的测试方法来进一步检查存在于当前数据集中尚未清楚揭示的缺陷，最终以实验结果为基础提出了构建更为稳健的歌声识别系统的方向。

Jun, 2018

SingFake: 唱歌声深度伪造检测

提出了歌声深度伪造检测任务，创建了第一个真实数据集 SingFake，包含 40 位歌手 5 种语言的 28.93 小时真实歌曲和 29.40 小时深度伪造歌曲片段，评估了四个最先进的口语对抗系统，发现在 SingFake 上训练相对于在口语测试数据上训练有显著改进，但也提出了未知歌手、通信编解码器、语言和音乐背景等挑战。

Sep, 2023

SVDD 挑战 2024：唱歌声深度伪造检测挑战 - 评估计划

AI 生成的歌唱声音的快速发展引起了艺术家和音乐行业的高度关注，基于音乐性质和强烈背景音乐的唱歌声音的深度伪造检测（SVDD）是一个需要专注的专业领域。为推动 SVDD 研究，我们最近提出了 “SVDD 挑战”，这是第一个侧重于实验室控制和真实场景下真实和深度伪造歌唱声音录制的研究挑战。该挑战将与 2024 年 IEEE 口语语言技术研讨会（SLT 2024）同时举行。

May, 2024

联合检测和分离歌声：一种多任务方法

本文探讨了利用多任务学习中的歌声活动检测作为额外任务来稳定和提高语音分离性能的方法，并提出了对于每个数据集特定的问题偏差的解决方法，最终实验表明与单任务相比，该方法在分离和歌声检测方面均有较大改进。

Apr, 2018

DeepSinger：基于网络挖掘数据的歌声合成

本文介绍了 DeepSinger，这是一个从音乐网站中抓取数据训练的多语言、多歌手的歌唱声音合成系统，其特点包括自动化的对齐模型、基于 Transformer 的合成模型以及多语言、多歌手的支持

Jul, 2020

基于深度学习的说话人识别综述

本文综述了说话人识别的几个主要子任务，包括说话人验证、识别、日程管理和鲁棒的说话人识别，着重介绍基于深度学习方法的说话人特征提取、说话人日程管理和鲁棒的说话人识别，以及领域适应和语音增强等方面的最新研究进展。

Dec, 2020

使用自监督技术学习歌手身份表示

我们提出了一个框架，通过在大量的孤立音轨上应用不同的自监督学习技术以及数据增强，训练歌手身份编码器以提取适用于各种歌唱相关任务（如歌声相似性和合成）的表示，我们评估了产生的表示在多个数据集上进行歌手相似性和识别任务，并重点关注领域外泛化，我们的框架在 44.1 kHz 下产生高质量的嵌入，优于说话人验证和 wav2vec 2.0 预训练基线，在歌唱声音上，并发布了我们的代码和训练模型，以促进对歌唱声音和相关领域的进一步研究。

Jan, 2024

越南流行音乐歌手声音分类的深度学习方法

本文提出了一种基于分析越南流行音乐的新方法来识别歌手姓名的方法，并采用声音分段检测和唱声分离作为预处理步骤，利用 Mel 频率倒谱系数提取输入特征来构建歌手分类器，最终在一个包含 18 位著名歌手的 300 首越南歌曲的数据集上获得了 92.84% 的准确率，是相同数据集上其他方法中最佳的结果。

Feb, 2021

利用大规模语音和歌唱数据进行声音转换模型的比较研究：针对 2023 年歌声转换挑战的 T13 系统

本文介绍了我们的 T13 系统，用于 2023 年的歌声转换挑战赛（SVCC）。我们采用基于自监督学习的识别与合成方法，针对领域内和跨域的英语歌声转换任务，通过有限的目标歌手 / 说话人数据进行数据高效的歌声转换。我们的 T13 系统在 SVCC 2023 的大规模听测试中表现出色，尤其在难度更高的跨域歌声转换任务中获得了极好的自然度和说话人相似度，验证了我们提出方法的广义泛化能力。我们的客观评估结果显示，对于跨域歌声转换，使用大规模数据集尤为有益。

Oct, 2023