重访唱歌声音检测:定量回顾与未来展望
本文旨在探讨歌唱领域中的语音识别挑战和进展,包括音高变化、各种歌唱风格和背景音乐干扰等唱歌所特有的挑战。我们研究了音素识别、歌曲中的语言识别、关键词检测和完整歌词转写等关键领域。通过描述作者在这些任务刚开始崭露头角的研究经历,同时还介绍了近期深度学习和大规模数据集方面的新进展如何推动了该领域的进步。本文的目标是阐明将语音识别技术应用于歌唱中的复杂性,评估当前的能力,并提出未来的研究方向。
Mar, 2024
本文探讨了利用多任务学习中的歌声活动检测作为额外任务来稳定和提高语音分离性能的方法,并提出了对于每个数据集特定的问题偏差的解决方法,最终实验表明与单任务相比,该方法在分离和歌声检测方面均有较大改进。
Apr, 2018
本文概述了利用最先进的深度学习技术处理歌唱任务的最新进展,讨论了它们在精度和音质方面的成就以及目前面临的挑战,如可用数据和计算资源的情况,同时探讨了当这些进展应用于商业应用时对听众和歌手的影响。
Jul, 2018
本文提出了一种基于分析越南流行音乐的新方法来识别歌手姓名的方法,并采用声音分段检测和唱声分离作为预处理步骤,利用 Mel 频率倒谱系数提取输入特征来构建歌手分类器,最终在一个包含 18 位著名歌手的 300 首越南歌曲的数据集上获得了 92.84% 的准确率,是相同数据集上其他方法中最佳的结果。
Feb, 2021
提出了歌声深度伪造检测任务,创建了第一个真实数据集 SingFake,包含 40 位歌手 5 种语言的 28.93 小时真实歌曲和 29.40 小时深度伪造歌曲片段,评估了四个最先进的口语对抗系统,发现在 SingFake 上训练相对于在口语测试数据上训练有显著改进,但也提出了未知歌手、通信编解码器、语言和音乐背景等挑战。
Sep, 2023
该研究介绍了一种基于三元组网络的数据驱动方法,用于检测 Auto-Tune 音乐的自动调音效果,通过创建一个由原始和自动调音音频剪辑组成的数据集。实验结果表明,与针对其他音频取证任务广泛使用的端到端模型 Rawnet2 相比,提出的方法在准确性和鲁棒性上均具有优势。
Mar, 2024
AI 生成的歌唱声音的快速发展引起了艺术家和音乐行业的高度关注,基于音乐性质和强烈背景音乐的唱歌声音的深度伪造检测(SVDD)是一个需要专注的专业领域。为推动 SVDD 研究,我们最近提出了 “SVDD 挑战”,这是第一个侧重于实验室控制和真实场景下真实和深度伪造歌唱声音录制的研究挑战。该挑战将与 2024 年 IEEE 口语语言技术研讨会(SLT 2024)同时举行。
May, 2024
声音障碍是显著影响患者生活质量的病理状态。然而,由于病理性声音数据短缺以及用于诊断的录音类型的多样性,对这些病理状态的非侵入性自动诊断仍未得到充分探索。本文提出了一种新颖的解决方案,直接采用在原始声音信号上工作的变压器,并通过合成数据生成和数据增强来解决数据短缺的问题。此外,我们同时考虑了多种录音类型,如句子朗读和持续元音发音,通过采用多模态专家集合来对不同数据类型上的预测进行对齐。在公共和私有数据集上获得的实验结果显示了我们解决方案在障碍检测和分类任务中的有效性,并在现有方法上有了很大的改进。
Jun, 2024