高效神经音频合成
本文提出了一种新的无条件音频生成模型,该模型利用自回归多层感知机和有状态循环神经网络的分层结构来捕捉长时间跨度中时间序列的潜在变化源,并在不同数据集上进行人类评估,结果表明该模型优于竞争模型。同时还展示了模型的各个组件对展示性能的贡献。
Dec, 2016
采用概率密度蒸馏技术,从 WaveNet 模型中训练一个并行前向网络,实现语音样本的超过 20 倍实时生成速度,目前已部署在 Google 助手中支持多种不同英文和日语语音。
Nov, 2017
本文研究深度学习模型在语音增强方面的应用,并探讨了网络复杂度与可达到的语音质量之间的关系,考虑了网络在回声环境下的训练。研究表明,网络的复杂度是影响语音质量的一个重要因素。
Jan, 2021
该研究介绍了 WaveNet,一种用于生成原始音频波形的深度神经网络,该模型是完全概率的和自回归的,应用于文本到语音,产生了最先进的性能,用于模拟音乐,生成新颖且高度逼真的音乐片段,并可作为一种判别模型返回有希望的语素识别结果。
Sep, 2016
本文提出了一种基于深度卷积神经网络的语音合成系统,通过采用时间扭曲、频率掩蔽和时间掩蔽等一系列数据增强方法,提高了模型的泛化性和鲁棒性;最终实验结果表明,在确保合成语音质量的同时,仅使用 CNN 组件的 TTS 模型可以比 Tacotron 等传统模型缩短训练时间。
Oct, 2022
提出 LPCNet,旨在改善语音合成的效率,与 WaveRNN 相比在相同的网络规模下实现了更高的质量,并且在 3GFLOPS 的复杂度下可以实现高质量的语音合成,可以在低功耗设备上更容易地部署神经合成应用,例如嵌入式系统和移动电话。
Oct, 2018
基于深度卷积神经网络的轻量级文本转语音系统,通过 CNN-based 序列合成技术,使用数据增强方法减少训练时间,同时保证合成语音的质量和自然度。
Mar, 2024
通过模型修剪和 GPU 优化,我们为稀疏 RNN 设计了一种高效的实现,包括 Lamport 时间戳、宽存储器负载和银行感知权重布局等优化措施,使得在隐藏层大小为 2304,批处理大小为 4,密度为 30% 时,我们的技术可实现超过 6 倍的加速效果,进一步,我们的技术使得大于 5 倍的模型大小可以适应于 GPU 以达到 2 倍的加速效果,最后我们在附录中进行了机器翻译和语音识别任务的案例研究,将循环层加速了最多 3 倍。
Apr, 2018
本文提出了 FloWaveNet,一种基于可逆流的生成模型,使用单阶段训练程序和单个最大似然损失函数,无需附加的辅助项,能实时高效地输出与先前两阶段并行模型相媲美的清晰音频
Nov, 2018
本文介绍了在频谱域中建模日志幅度和瞬时频率可提高 GAN 在音频合成方面的表现,并通过 NSynth 数据集的大量实证研究表明,GAN 能够比强 WaveNet 基线在自动化和人工评估指标上表现更好,而且比自回归模型产生的音频快几个数量级。
Feb, 2019