一种具有乐器特定输入表示和扩散绘制的表达性声学吉他声音合成

Jan, 2024

一种具有乐器特定输入表示和扩散绘制的表达性声学吉他声音合成

Expressive Acoustic Guitar Sound Synthesis with an Instrument-Specific Input Representation and Diffusion Outpainting

Hounsu Kim, Soonbeom Choi, Juhan Nam

TL;DR通过使用定制化的输入表示方法，我们提出了一种表达丰富的声学吉他声音合成模型，该模型名为 guitarroll。通过扩散外推生成长期一致性的音频，我们的模型在音频质量方面优于基线模型，并比以前的主要工作生成更真实的音色声音。

Abstract

synthesizing performing guitar sound is a highly challenging task due to the polyphony and high variability in expression. Recently, deep generative models have shown promising results in synthesizing

synthesizing expressive polyphonic acoustic guitar sound synthesis

发现论文，激发创造

基于频谱扩散的多乐器音乐合成

本文介绍了利用神经合成器实时生成任意乐器和音符组合的音频，其具有互动性和表现力，使用 MIDI 序列进行训练，采用两阶段过程转换为声谱图，然后通过生成对抗网络（GAN）声谱图反演器将其转化为音频，发现 DDPM 方法在质量和重建等方面具有显著的优势。

Jun, 2022

HyperGANStrument：使用无论音高如何均不变的超网络进行乐器声音合成与编辑

HyperGANStrument 通过引入一个与音调无关的超网络，来调节预训练的 GANStrument 生成器的权重，实现了对用户输入音频进行重建的能力的提升，并结合对超网络的敌对微调来改善生成器的重建准确性和多样性，从而不仅增强了 GANStrument 的生成能力，还显著提高了生成音频的可编辑性。

Jan, 2024

DiffRoll：基于扩散的生成式音乐转录技术及无监督预训练能力

提出了一种新的生成方法，DiffRoll，来处理自动音乐转录问题。它将 AMT 视为有条件的生成任务，从其理论上训练模型来从纯高斯噪声中生成逼真的钢琴卷，因此 DiffRoll 不需要分类器，可在仅提供钢琴卷的不配对数据集上训练。实验证明，DiffRoll 的性能优于其判别式对应物 19 个百分点，并且其消融研究还表明，其性能优于类似的现有方法 4.8 个百分点。

Oct, 2022

基于扩散的多乐器音乐合成的性能调整

在音乐信息检索（MIR）中，从符号音乐表示生成多仪器音乐是一项重要任务。本研究的主要贡献是提出通过将生成模型的条件设置为特定表演和录音环境，从而增强多仪器合成的控制能力，从而更好地引导音色和风格。通过基于最先进的扩散音乐生成模型，我们引入了性能条件化，这是一种简单的工具，表明生成模型可以合成具有特定表演所使用的特定乐器的音乐的风格和音色。我们的原型采用各种仪器的非编目表演进行评估，实现了最先进的 FAD 真实性评分，并允许新的音色和风格控制。我们的项目页面，包括样本和演示，可在 benadar293.github.io/midipm 上找到。

Sep, 2023

基于图形提示的 MIDI 受控音乐生成：面向基于图像的扩散修复

通过用户友好的图形界面，本研究探讨了使用 Hourglass Diffusion Transformer（HDiT）模型在 MIDI 钢琴卷帘图像上进行盖章区域修复的方法，并通过在特定区域添加额外噪音来增强音符生成。该方法通过像素空间的线性缩放以提供直观和可解释的控制，而不需要操作预训练自编码器提供的压缩潜在空间，并展示了其在旋律、伴奏和延续音符填充方面的成果，同时帮助增加音符密度以生成符合用户规格要求的音乐结构，甚至在这些结构超出训练数据分布的情况下仍然有效。

Jul, 2024

CRASH: 基于原始音频评分的生成式建模，用于可控的高分辨率鼓声合成

本文提出了一种基于得分的生成模型，利用扩散过程建模和条件 U-Net 逼近得分函数实现音频合成。该方法可以以高分辨率 44.1kHz 可控生成短小的打击声音，并且适用于多种采样方案，包括类条件采样和杂交声音生成。相比其他基于 GAN 的方法，该方法模型轻便、易于训练。

Jun, 2021

从离散的标记到高保真音频的多频带扩散

利用高保真多带扩散模型，基于低比特率离散表示生成任何类型的音频，其感知质量比最先进的生成技术更好。

Aug, 2023

Diff-A-Riff: 音乐伴奏共创技术基于潜在扩散模型

介绍了基于深度生成模型的音乐生成方法 Diff-A-Riff，可通过音频参考、文本提示或两者控制，生成适应任何音乐背景的高质量器乐伴奏，并在 48kHz 伪立体声音频的基础上显著减少推断时间和内存使用。

Jun, 2024

情绪控制下的快速扩散生成对抗网络模型用于符号音乐生成

我们提出了将扩散模型与生成对抗网络相结合的方法，旨在解决算法音乐生成中的情感控制和计算成本的问题。通过训练变分自编码器得到情感标签的符号音乐数据集的嵌入，并用其来训练扩散模型，我们成功地控制了扩散模型以生成具有特定情感的符号音乐，同时大幅提升了计算效率。

Oct, 2023

实现逼真音乐生成的挑战：在规模上对原始音频进行建模

本文探讨了采用自回归离散自编码器（ADAs）来模拟音乐块之间的长期依赖关系的方法，实现了在原始音频域中生成具有风格一致性的钢琴音乐。

Jun, 2018