逆序列变换学习微动感
本文展示了使用通用 encoder-decoder Transformer 和标准解码方法可实现与专业领域特定设计模型同等效果的自动音乐转录方法,从而取消了任务特定架构的需求,简化了转录,为集中精力于数据集创建和标注而非模型设计提供了可能性。
Jul, 2021
本文提出了一种基于序列生成对抗网络的应用方法 (SeqGAN),用于创建和捕获音符和和弦的多声部音乐序列的表征,同时利用神经网络从该嵌入式音乐词空间的模拟分布中学习预测序列的分布,实验表明该方法可以稳定地训练 GAN 并创造出具有音乐连贯性且在定量和定性方面均有所提升的音乐序列。
Oct, 2017
本文提出一种使用 Transformer 模型在音频领域生成鼓声的方法,通过使用含有鼓声和不含鼓声的音轨进行训练,使用 VQ-VAE 进行音频编码,使用 Mel-spectrogram 进行鼓声编码,并且使用与输入音频相关的节拍特征,从而演奏出与输入音频节奏风格一致的鼓声。
Oct, 2022
通过基于循环神经网络的概率模型将输入序列转换为高维输出序列来将复调音频音乐转录成符号表示,从而得到了在高噪声下能够产生合理输出分布的方法,并通过有效的算法大幅优于之前最先进的方法,在五个数据集上将测试误差率减半。
Dec, 2012
本文提出了使用卷积变分递归神经网络对音乐进行特征捕捉和创作新音乐序列的模型,通过编码器 - 解码器架构和概率连接捕获音乐的隐藏结构,并使用 Variable Markov Oracle 方法对不同神经网络类型的性能进行比较,结果表明所提出的模型具有更好的统计相似性和更好地保留了原始音乐的风格。
Oct, 2018
本文探讨了基于帧的音乐转录的各种模型,重点在于达到人类录音的最新的方法。本文中讨论的具有平移不变性的网络,结合了传统的滤波器和卷积神经网络,在 2017 年 MIREX 多基频估计评估测试中成为最佳性能模型。本类模型在 log 频率域中共享参数,利用音乐的频率不变性来减少模型参数数量并避免对训练数据的过度拟合。本文中的所有模型都是通过 MusicNet 数据集中具有标记的数据进行监督训练的,并通过随机保持标签的音调变换进行增强。
Nov, 2017
本文提出了一种基于序列到序列学习的音乐条件舞蹈生成方法,通过设计一种课程学习策略,使其在长时间序列生成过程中减轻自回归模型中的误差积累,从而有效地捕捉音乐和舞蹈之间的微观对应关系,实验结果表明,该方法在自动度量和人类评估等方面明显优于现有技术水平。
Jun, 2020
本文介绍了利用神经合成器实时生成任意乐器和音符组合的音频,其具有互动性和表现力,使用 MIDI 序列进行训练,采用两阶段过程转换为声谱图,然后通过生成对抗网络(GAN)声谱图反演器将其转化为音频,发现 DDPM 方法在质量和重建等方面具有显著的优势。
Jun, 2022
通过将图表生成任务作为一个序列生成任务并使用大型数据集训练 Transformer,我们引入了节奏感预处理和训练流程,发现我们的模型在大型数据集上优于基准模型,并且也受益于预训练和微调。
Nov, 2023
本文研究了组合创意方法来进行迁移学习,以提高基于深度神经网络的模型在非分布式体裁(OOD)音乐生成方面的性能。我们以伊朗民俗音乐为例,使用组合创意迁移学习方法,成功地调整了 MusicVAE(一个大型生成音乐模型)适应伊朗民俗音乐数据集。结果表明,未来该方法有潜力用于生成代表性不足的音乐类型。
Jun, 2023