Jul, 2024

基于图形提示的 MIDI 受控音乐生成:面向基于图像的扩散修复

TL;DR通过用户友好的图形界面,本研究探讨了使用 Hourglass Diffusion Transformer(HDiT)模型在 MIDI 钢琴卷帘图像上进行盖章区域修复的方法,并通过在特定区域添加额外噪音来增强音符生成。该方法通过像素空间的线性缩放以提供直观和可解释的控制,而不需要操作预训练自编码器提供的压缩潜在空间,并展示了其在旋律、伴奏和延续音符填充方面的成果,同时帮助增加音符密度以生成符合用户规格要求的音乐结构,甚至在这些结构超出训练数据分布的情况下仍然有效。