VampNet: 通过掩码声学令牌建模进行音乐生成
利用基于 WaveNet 架构的新型合成模型,对参数声码器产生的特征进行建模,并使用混合密度输出,实现对每个帧的预测,避免了过度拟合,在预测错误的情况下进行自回归生成算法的正则化,成功将和声、非周期性和有声 / 无声组件预测在一起,比现有的参数化统计方法和拼接方法更为有效。
Apr, 2017
我们介绍了 MAGNeT,一种遮蔽生成序列建模方法,直接操作多个音频令牌流。MAGNeT 由一个单阶段的非自回归变换器组成,在训练过程中,我们预测来自掩码调度器的遮蔽令牌跨度,而在推断过程中,我们逐步构建输出序列使用多个解码步骤。为了进一步提高生成音频的质量,我们引入了一种新的再评分方法,其中我们利用外部预训练模型对 MAGNeT 的预测进行再评分和排序,然后用于后续的解码步骤。最后,我们探索了 MAGNeT 的混合版本,其中我们在自回归方式下生成前几秒,而其余序列则并行解码。我们展示了 MAGNeT 在文本转音乐和文本转音频生成任务中的效率,并进行了大量的实证评估,考虑客观指标和人类研究。所提出的方法与评估基线相当,而且速度显著更快(比自回归基线快 7 倍)。通过消融研究和分析,我们阐明了构成 MAGNeT 的每个组成部分的重要性,并指出了自回归和非自回归建模之间的权衡,考虑到延迟、吞吐量和生成质量。我们的演示页面上提供了样本,位于此 https URL。
Jan, 2024
本研究提出了一种基于 WaveNet 风格自编码器的新型音频模型,进一步介绍了一个规模较大质量较高的音乐数据集 NSynth。使用 NSynth 数据集,我们证明 WaveNet 自编码器比使用频谱自编码器基线的性能有显著提高,同时演示了该模型学习嵌入的能力,实现了在音色上的差值并创造了新类型的逼真和有表现力的声音。
Apr, 2017
该研究介绍了 WaveNet,一种用于生成原始音频波形的深度神经网络,该模型是完全概率的和自回归的,应用于文本到语音,产生了最先进的性能,用于模拟音乐,生成新颖且高度逼真的音乐片段,并可作为一种判别模型返回有希望的语素识别结果。
Sep, 2016
本文研究语音合成技术,并采用先进的机器学习方法克服了振幅频谱和声学模型过度平滑等局限性,在大规模众包评估中,发现生成性对抗网络和自回归模型表现优于普通循环神经网络。同时,使用相同的自回归声学模型进行评估,Wavenet 声码器优于经典的源 - 滤波器型声码器。尤其是,组合自回归声学模型和 Wavenet 声码器生成的语音波形与声学单元表现出类似的语音质量得分。
Apr, 2018
本文提出了一种基于 Audio-Visual Context-Aware Transformer (AV-CAT) 框架的口型同步技术,可同时利用音频和视频信息,通过设计卷积 - Transformer 混合骨干网络和基于注意力机制的融合策略,对图像进行口型蒙版、填充和修改,从而在保证图像真实性的前提下,生成高质量的口型同步结果。
Dec, 2022
本文提出了一种基于卷积神经网络的生成对抗网络,应用了音频压缩和 MDCT 数据表示等技术生成长时间和高质量的音频样本,并利用人耳的听觉掩蔽效应和心理声学感知限制来拓宽真实分布并稳定训练过程。经过 250 小时的训练,使用单个 Cloud TPUv2 可以创造出 95 秒的立体声音轨,且模型具有快速生成新歌曲的优势。
Jan, 2021
本文提出了一种名为 MusiCoder 的自监督音乐声学表示学习方法,通过掩蔽重建预训练,自适应 BERT 式的自注意力双向转换器架构,该方法在两个下游音乐注释任务中均优于现有模型,表明了自监督学习方法理解音乐的巨大潜力。
Aug, 2020
提出了一个深度卷积模型,学习了乐谱和音频之间的符号表示之间的得分与音频之间的映射,通过用户研究发现,该模型在自然度和情感表现方面的平均意见分数高于 WaveNet 模型和两个商业声音库。
Nov, 2018