Feb, 2024

通过基于内容的控制,进行可定向的长期音乐音频生成和编辑

TL;DR可控音乐生成对于人工智能与人类共创音乐至关重要。大型语言模型在生成高质量音乐方面表现出了潜力,但其自回归生成的特性限制了其在音乐编辑任务中的实用性。为了弥合这一差距,我们引入了一种新颖的参数高效微调(PEFT)方法,通过此方法,自回归语言模型可以无缝地解决音乐修复任务。此外,我们的 PEFT 方法结合了基于帧级内容的控制,便于音轨调节的音乐细化和谱面调节的音乐编排。我们将此方法应用于优化 MusicGen,一种领先的自回归音乐生成模型。我们的实验在多个音乐编辑任务中显示了有希望的结果,为未来的 AI 驱动音乐编辑工具提供了更灵活的控制。我们的工作演示页面和源代码可以在线上获取。