Jul, 2024

文本音乐生成模型中的解释差距

TL;DR大规模文本到音乐生成模型大大增强了音乐创作能力,但其与人类音乐家有效合作的能力仍然有限。本文提出了一个描述音乐交互过程的框架,包括表达、解释和执行控制。根据这个框架,我们认为现有的文本到音乐模型和音乐家之间的主要差距在于解释阶段,模型缺乏解释音乐家控制的能力。我们还提出了两种策略来解决这个差距,并呼吁音乐信息检索界应对解释挑战,以改善人工智能与音乐家的合作。