Jul, 2024

BandControlNet:基于并行变压器的可调式流行音乐生成与细粒度时空特征

TL;DR可控音乐生成通过将用户的意图投射到所需音乐上,促进人类和作曲系统之间的互动。为了解决弱可控性和音乐质量不佳的问题,我们首先提出了时空特征作为强大而细粒度的控制器来增强生成模型的可控性。通过设计高效的音乐表示REMl_Track并使用Byte Pair Encoding(BPE)技术缩短每个音轨的序列长度,我们构建了多音轨音乐系统。然后,我们发布了BandControlNet,它是一种基于并行Transformer的条件模型,用于处理多个音乐序列并生成质量高的音乐样本,这些样本是基于给定的时空控制特征条件的。实验结果表明,BandControlNet在大多数客观指标上优于其他条件音乐生成模型,包括保真度和推理速度,并且在生成长音乐样本方面显示出很大的稳健性。主观评估表明,在短期数据集上训练的BandControlNet生成的音乐质量与最先进的模型相当,而在更长的数据集上明显优于它们。