Mar, 2024

言不足以表达:歌唱语音识别中的进展与挑战

TL;DR本文旨在探讨歌唱领域中的语音识别挑战和进展,包括音高变化、各种歌唱风格和背景音乐干扰等唱歌所特有的挑战。我们研究了音素识别、歌曲中的语言识别、关键词检测和完整歌词转写等关键领域。通过描述作者在这些任务刚开始崭露头角的研究经历,同时还介绍了近期深度学习和大规模数据集方面的新进展如何推动了该领域的进步。本文的目标是阐明将语音识别技术应用于歌唱中的复杂性,评估当前的能力,并提出未来的研究方向。