一种具有乐器特定输入表示和扩散绘制的表达性声学吉他声音合成
本文介绍了利用神经合成器实时生成任意乐器和音符组合的音频,其具有互动性和表现力,使用 MIDI 序列进行训练,采用两阶段过程转换为声谱图,然后通过生成对抗网络(GAN)声谱图反演器将其转化为音频,发现 DDPM 方法在质量和重建等方面具有显著的优势。
Jun, 2022
HyperGANStrument 通过引入一个与音调无关的超网络,来调节预训练的 GANStrument 生成器的权重,实现了对用户输入音频进行重建的能力的提升,并结合对超网络的敌对微调来改善生成器的重建准确性和多样性,从而不仅增强了 GANStrument 的生成能力,还显著提高了生成音频的可编辑性。
Jan, 2024
提出了一种新的生成方法,DiffRoll,来处理自动音乐转录问题。它将 AMT 视为有条件的生成任务,从其理论上训练模型来从纯高斯噪声中生成逼真的钢琴卷,因此 DiffRoll 不需要分类器,可在仅提供钢琴卷的不配对数据集上训练。实验证明,DiffRoll 的性能优于其判别式对应物 19 个百分点,并且其消融研究还表明,其性能优于类似的现有方法 4.8 个百分点。
Oct, 2022
在音乐信息检索(MIR)中,从符号音乐表示生成多仪器音乐是一项重要任务。本研究的主要贡献是提出通过将生成模型的条件设置为特定表演和录音环境,从而增强多仪器合成的控制能力,从而更好地引导音色和风格。通过基于最先进的扩散音乐生成模型,我们引入了性能条件化,这是一种简单的工具,表明生成模型可以合成具有特定表演所使用的特定乐器的音乐的风格和音色。我们的原型采用各种仪器的非编目表演进行评估,实现了最先进的 FAD 真实性评分,并允许新的音色和风格控制。我们的项目页面,包括样本和演示,可在 benadar293.github.io/midipm 上找到。
Sep, 2023
通过用户友好的图形界面,本研究探讨了使用 Hourglass Diffusion Transformer(HDiT)模型在 MIDI 钢琴卷帘图像上进行盖章区域修复的方法,并通过在特定区域添加额外噪音来增强音符生成。该方法通过像素空间的线性缩放以提供直观和可解释的控制,而不需要操作预训练自编码器提供的压缩潜在空间,并展示了其在旋律、伴奏和延续音符填充方面的成果,同时帮助增加音符密度以生成符合用户规格要求的音乐结构,甚至在这些结构超出训练数据分布的情况下仍然有效。
Jul, 2024
本文提出了一种基于得分的生成模型,利用扩散过程建模和条件 U-Net 逼近得分函数实现音频合成。该方法可以以高分辨率 44.1kHz 可控生成短小的打击声音,并且适用于多种采样方案,包括类条件采样和杂交声音生成。相比其他基于 GAN 的方法,该方法模型轻便、易于训练。
Jun, 2021
介绍了基于深度生成模型的音乐生成方法 Diff-A-Riff,可通过音频参考、文本提示或两者控制,生成适应任何音乐背景的高质量器乐伴奏,并在 48kHz 伪立体声音频的基础上显著减少推断时间和内存使用。
Jun, 2024
我们提出了将扩散模型与生成对抗网络相结合的方法,旨在解决算法音乐生成中的情感控制和计算成本的问题。通过训练变分自编码器得到情感标签的符号音乐数据集的嵌入,并用其来训练扩散模型,我们成功地控制了扩散模型以生成具有特定情感的符号音乐,同时大幅提升了计算效率。
Oct, 2023
本文探讨了采用自回归离散自编码器(ADAs)来模拟音乐块之间的长期依赖关系的方法,实现了在原始音频域中生成具有风格一致性的钢琴音乐。
Jun, 2018