SampleRNN: 一种无条件端到端的神经音频生成模型
该研究介绍了 WaveNet,一种用于生成原始音频波形的深度神经网络,该模型是完全概率的和自回归的,应用于文本到语音,产生了最先进的性能,用于模拟音乐,生成新颖且高度逼真的音乐片段,并可作为一种判别模型返回有希望的语素识别结果。
Sep, 2016
使用深度学习技术的音乐音频的端到端生成最近有很大活动。本文提出了一种替代范式,用于生成能够听取和响应音乐上下文的音乐生成模型。使用非自回归、基于 Transformer 的模型架构构建了这样一个模型,并提出了一系列新颖的架构和采样改进方法。我们在开源和专有数据集上训练了这个描述的架构。我们使用标准质量度量和基于音乐信息检索描述符的新方法来评估生成的模型。所得到的模型在音频质量上达到了最先进的基于文本的模型水平,并且在音乐连贯性方面表现出很强的上下文关联性。
Dec, 2023
利用基于 WaveNet 架构的新型合成模型,对参数声码器产生的特征进行建模,并使用混合密度输出,实现对每个帧的预测,避免了过度拟合,在预测错误的情况下进行自回归生成算法的正则化,成功将和声、非周期性和有声 / 无声组件预测在一起,比现有的参数化统计方法和拼接方法更为有效。
Apr, 2017
本篇论文提出了一种使用正则化流和对抗式训练改进的变分推断的并行端到端的语音合成方法,还引入了基于随机预测的语音节奏模型来解决单一文本多样合成的问题。主题涉及文本转语音、端到端模型、变分推断、随机预测、生成模型。相关实验显示本方法表现优于其他公开数据集上的最佳 TTS 系统,并能达到类似于真实语音自然度的效果。
Jun, 2021
本文提出了一种新颖的无监督自回归神经模型,用于学习通用的语音表示,通过无需音素或单词边界标签的方法,从大量未标记数据中学习。我们的模型的语音表示显著提高了电话分类和说话人验证的性能,并且我们的分析表明,不同级别的语音信息由我们的模型在不同层次上捕获。
Apr, 2019
本文提出 SaShiMi,一种基于 S4 模型的新型波形建模多尺度架构。相对于现有的波形建模方法,SaShiMi 在自回归生成方面具有最先进的性能,生成的钢琴和人声波形质量更高,密度估计和速度都比 WaveNet 更好。
Feb, 2022
研究了段落循环神经网络在端到端声学建模中的应用,不依赖于外部系统提供特征或分割边界,通过神经网络进行特征提取,具有自我完备性,可实现端到端训练,实验表明在语音识别领域中表现良好。
Mar, 2016
使用条件前馈生成器和多个鉴别器组成的架构,GAN-TTS 能够生成自然度与当前最先进的模型相当,而且可以高度并行化。同时,研究者还使用了主观人类评估及新型量化指标来评估 GAN-TTS 的性能。
Sep, 2019
本文提出了一种基于文本输入生成音频的生成模型,使用数据增强技术和多流建模来减轻音频生成中的诸多挑战,包括文本注释的稀缺性、高保真音频编码和多个音频源的难以分辨等,并实现了比其他基准模型更好的音频生成效果。
Sep, 2022