本文提出了一种新的无条件音频生成模型,该模型利用自回归多层感知机和有状态循环神经网络的分层结构来捕捉长时间跨度中时间序列的潜在变化源,并在不同数据集上进行人类评估,结果表明该模型优于竞争模型。同时还展示了模型的各个组件对展示性能的贡献。
Dec, 2016
Deep Voice是一个使用深度神经网络构建的优秀的文本到语音系统,由五个主要组成部分构成,包括用于定位语音边界的分段模型、字素到音素转换模型、音素持续时间预测模型、基频预测模型和音频合成模型。通过使用神经网络进行每个组件的构建,既简单又灵活。此外,我们通过优化后的WaveNet推断内核,实现了400倍的实时速度。
Feb, 2017
本研究提出了一种基于WaveNet风格自编码器的新型音频模型,进一步介绍了一个规模较大质量较高的音乐数据集NSynth。使用NSynth数据集,我们证明WaveNet自编码器比使用频谱自编码器基线的性能有显著提高,同时演示了该模型学习嵌入的能力,实现了在音色上的差值并创造了新类型的逼真和有表现力的声音。
Apr, 2017
本篇论文介绍了WaveGAN,这是将GANs应用到无监督的原始音频波形合成中的第一个尝试。WaveGAN能够合成具有全局一致性的音频波形,适用于音效生成,并且实验结果表明,它能够在没有标签的情况下学习生成一些可理解的单词和其他领域(如鸟类鸣叫、钢琴和鼓声等)的音频。
Feb, 2018
本文针对顺序模型中高效采样的问题,提出了一种基于WaveRNN和权重修剪和子缩放WaveRNN的通用技术,可以在保持高输出质量的同时提高采样速度。
本文提出了一种将深度学习中的原始音频模型和符号模型相结合的音乐自动生成方法,使用LSTM网络学习音乐的旋律结构,再将符号生成作为WaveNet原始音频生成器的条件输入,从而生成出有结构且听起来逼真的音乐。
Jun, 2018
本研究提出了一种基于深度学习的轻量级神经音频合成器SING,其可以通过单一解码器从近1000种乐器中生成音符,并且通过新的损失函数将生成的和目标波形的对数谱距离最小化,提高了音质的感知品质。与基于WaveNet的最新自动编码器相比,在训练和推理方面分别快32倍和快2500倍。
Oct, 2018
利用二维时频表示,概率模型和多尺度生成,设计了一个能够捕捉高时间尺度结构的模型,可以在各种音频生成任务中达到比以往更好的效果。
Jun, 2019
本文介绍了一种小型的WaveFlow产生式流,可以训练原始音频并合成高保真语音,只需几个步骤即可生成成千上万个时间步长的波形,并具有比WaveGlow小15倍的参数和42.6倍的音频合成速度。
Dec, 2019
本研究解决了在面对面交流中听者面部反应的真实模拟问题。通过结合WaveNet和长短期记忆网络的序列到序列模型,我们的创新方法能够捕捉听者反馈的微妙细节,同时保持个体身份并表达合适的态度和观点。实验结果表明,该方法在ViCo基准数据集上优于基准模型。
Sep, 2024