言不足以表达:歌唱语音识别中的进展与挑战
本文概述了利用最先进的深度学习技术处理歌唱任务的最新进展,讨论了它们在精度和音质方面的成就以及目前面临的挑战,如可用数据和计算资源的情况,同时探讨了当这些进展应用于商业应用时对听众和歌手的影响。
Jul, 2018
该论文对三个现有歌声识别系统进行了误差分析,并设计了新的测试方法来进一步检查存在于当前数据集中尚未清楚揭示的缺陷,最终以实验结果为基础提出了构建更为稳健的歌声识别系统的方向。
Jun, 2018
提出了歌声深度伪造检测任务,创建了第一个真实数据集 SingFake,包含 40 位歌手 5 种语言的 28.93 小时真实歌曲和 29.40 小时深度伪造歌曲片段,评估了四个最先进的口语对抗系统,发现在 SingFake 上训练相对于在口语测试数据上训练有显著改进,但也提出了未知歌手、通信编解码器、语言和音乐背景等挑战。
Sep, 2023
AI 生成的歌唱声音的快速发展引起了艺术家和音乐行业的高度关注,基于音乐性质和强烈背景音乐的唱歌声音的深度伪造检测(SVDD)是一个需要专注的专业领域。为推动 SVDD 研究,我们最近提出了 “SVDD 挑战”,这是第一个侧重于实验室控制和真实场景下真实和深度伪造歌唱声音录制的研究挑战。该挑战将与 2024 年 IEEE 口语语言技术研讨会(SLT 2024)同时举行。
May, 2024
本文探讨了利用多任务学习中的歌声活动检测作为额外任务来稳定和提高语音分离性能的方法,并提出了对于每个数据集特定的问题偏差的解决方法,最终实验表明与单任务相比,该方法在分离和歌声检测方面均有较大改进。
Apr, 2018
本文介绍了 DeepSinger,这是一个从音乐网站中抓取数据训练的多语言、多歌手的歌唱声音合成系统,其特点包括自动化的对齐模型、基于 Transformer 的合成模型以及多语言、多歌手的支持
Jul, 2020
本文综述了说话人识别的几个主要子任务,包括说话人验证、识别、日程管理和鲁棒的说话人识别,着重介绍基于深度学习方法的说话人特征提取、说话人日程管理和鲁棒的说话人识别,以及领域适应和语音增强等方面的最新研究进展。
Dec, 2020
我们提出了一个框架,通过在大量的孤立音轨上应用不同的自监督学习技术以及数据增强,训练歌手身份编码器以提取适用于各种歌唱相关任务(如歌声相似性和合成)的表示,我们评估了产生的表示在多个数据集上进行歌手相似性和识别任务,并重点关注领域外泛化,我们的框架在 44.1 kHz 下产生高质量的嵌入,优于说话人验证和 wav2vec 2.0 预训练基线,在歌唱声音上,并发布了我们的代码和训练模型,以促进对歌唱声音和相关领域的进一步研究。
Jan, 2024
本文提出了一种基于分析越南流行音乐的新方法来识别歌手姓名的方法,并采用声音分段检测和唱声分离作为预处理步骤,利用 Mel 频率倒谱系数提取输入特征来构建歌手分类器,最终在一个包含 18 位著名歌手的 300 首越南歌曲的数据集上获得了 92.84% 的准确率,是相同数据集上其他方法中最佳的结果。
Feb, 2021
本文介绍了我们的 T13 系统,用于 2023 年的歌声转换挑战赛(SVCC)。我们采用基于自监督学习的识别与合成方法,针对领域内和跨域的英语歌声转换任务,通过有限的目标歌手 / 说话人数据进行数据高效的歌声转换。我们的 T13 系统在 SVCC 2023 的大规模听测试中表现出色,尤其在难度更高的跨域歌声转换任务中获得了极好的自然度和说话人相似度,验证了我们提出方法的广义泛化能力。我们的客观评估结果显示,对于跨域歌声转换,使用大规模数据集尤为有益。
Oct, 2023