Aug, 2022

使用音频指导的预训练语言模型解释歌曲歌词

TL;DR本文提出了 BART-fusion 模型,用于从音乐音频和歌词中生成歌词解释,该模型结合了一个大规模预训练语言模型和一个音频编码器。实验结果显示,该模型能够更好地理解歌词和音乐,生成精确流畅的解释,并且可以帮助人们更准确地检索音乐。