ICLRMay, 2024

基于级联扩散模型的符号音乐整曲层次生成

TL;DR本文提出了基于组成层次结构实现完整音乐作品建模的方法,通过定义一种分层语言对流行歌曲的符号化表示进行建模。通过级联扩散模型训练了分层语言模型,实验证明该模型能够生成具有可识别的全局歌词 - 副歌结构和协调音的完整音乐作品,且音乐质量高于基准模型。此外,还展示了该模型具有灵活的可控性,用户可以通过从可解释的分层语言中采样或调整预训练的外部表示来控制音乐的流动。