- MEG 基础 GPT 模型
使用深度学习技术,以大量未标记数据预训练模型,并在特定任务上进行微调,对大脑信号进行建模比常规线性自回归模型具有更好的建模能力,其中 GPT2 模型在时间、空间和频谱特征方面更好地重现了实际数据和任务数据的诱发活动。
- 使用状态空间模型生成音频
本文提出 SaShiMi,一种基于 S4 模型的新型波形建模多尺度架构。相对于现有的波形建模方法,SaShiMi 在自回归生成方面具有最先进的性能,生成的钢琴和人声波形质量更高,密度估计和速度都比 WaveNet 更好。
- FastWave:在 FPGA 上加速自回归卷积神经网络
本文开发了第一个加速器架构 FastWave 用于自回归卷积神经网络,实现了针对 WaveNet 的快速推理模型,通过优化和并行设计,FPGA 实现的 WaveNet 相较于 CPU 和 GPU 实现具有更高的生成速度和资源利用率。
- 统计参数语音合成的神经源 - 滤波波形模型
提出了一种不需要自回归或逆自回归的神经源 - 滤波器 (NSF) 波形建模框架,该框架比 WaveNet 等传统自回归模型具有更快的波形生成速度,并且所生成的合成语音质量至少与 WaveNet 相当。
- 深度神经网络明确结构编码对符号音乐生成的影响
本研究探讨了在给定和弦进行约束下解决旋律生成问题的方法,并比较了 LSTM(一种 RNN)和 WaveNet(扩张时间 - CNN)两种序列生成模型,结果显示使用扩张卷积层更显式地编码结构可以显著提高性能,而将基础和弦进行全局编码则更有提升 - 使用膨胀卷积和门控技术实现高效的关键字检测
本文探讨了利用端到端无状态时间建模来进行小尺寸关键词检测的应用,提出了一种新的模型,该模型受到了序列建模领域内扩张卷积的启发,通过增加门控激活和残差连接来训练更深层次的架构。实验结果表明,该模型优于使用 LSTM 单元的循环神经网络,具有更 - ExcitNet Vocoder: 一种用于参数语音合成系统的神经兴奋模型
本文提出了一种基于 WaveNet 的神经激励模型 (ExcitNet),用于统计参数语音合成系统,可提高语音合成的感知质量并提高建模效率。
- ICMLFloWaveNet:用于原始音频的生成流
本文提出了 FloWaveNet,一种基于可逆流的生成模型,使用单阶段训练程序和单个最大似然损失函数,无需附加的辅助项,能实时高效地输出与先前两阶段并行模型相媲美的清晰音频
- 灵活音色控制的神经音乐合成
本研究提出了一种基于神经网络的音乐合成模型,并使用具有灵活音色控制的嵌入学习来实现乐器的多样性和交互。
- 端到端音乐源分离:在波形领域是否可能?
本论文研究使用端到端模型进行音乐信号源分离,在考虑所有可用信息的基础上实现对原始音频信号(包括相位部分)的源分离。结果表明,我们提出的一种基于 Wavenet 的模型和 Wave-U-Net 的性能都可以优于 DeepConvSep,一个基 - ICLRClariNet: 端到端文本到语音平行波形生成
本文提出了一种新的并行波形生成的解决方案,使用自回归 WaveNet 通过最小化高峰输出分布之间的 KL 散度的正则化来辨别来自自回归 WaveNet 的高斯逆自回归流。此外,我们还介绍了一种全卷积的文本到波形神经架构,能够从头开始进行快速 - 为结构化自动音乐生成模型调整深度生成原始音频模型
本文提出了一种将深度学习中的原始音频模型和符号模型相结合的音乐自动生成方法,使用 LSTM 网络学习音乐的旋律结构,再将符号生成作为 WaveNet 原始音频生成器的条件输入,从而生成出有结构且听起来逼真的音乐。
- 通过在 Mel 频谱预测上调节 WaveNet,进行自然语音合成
该论文阐述了 Tacotron 2 的神经网络框架,该框架可以从文本中直接合成语音,其系统由一种递归的序列到序列的特征预测网络和一个修改的 WaveNet 模型组成,能够实现与专业录制的语音相当的平均意见分数 (MOS)。
- Parallel WaveNet: 快速高保真语音合成
采用概率密度蒸馏技术,从 WaveNet 模型中训练一个并行前向网络,实现语音样本的超过 20 倍实时生成速度,目前已部署在 Google 助手中支持多种不同英文和日语语音。
- 语音去噪的 Wavenet
该研究提出了一种基于非因果的扩张卷积和预测目标场而不是单个目标样本的、采用监督学习方式最小化回归损失的判别式模型适应方法,旨在进行语音去噪处理,比传统幅度谱法的维纳滤波法具有更好的计算性能和感知评估效果。
- ICML深度之声:实时神经文本转语音
Deep Voice 是一个使用深度神经网络构建的优秀的文本到语音系统,由五个主要组成部分构成,包括用于定位语音边界的分段模型、字素到音素转换模型、音素持续时间预测模型、基频预测模型和音频合成模型。通过使用神经网络进行每个组件的构建,既简单 - 快速 Wavenet 生成算法
本文介绍了一种有效的 Wavenet 生成过程实现方法 Fast Wavenet,通过缓存前面的计算结果,去除冗余卷积操作,将算法复杂度从 O (2^L) 减少到 O (L),提高了生成速度。虽然该方法是针对 Wavenet 的,但任何带有 - WaveNet:原始音频的生成模型
该研究介绍了 WaveNet,一种用于生成原始音频波形的深度神经网络,该模型是完全概率的和自回归的,应用于文本到语音,产生了最先进的性能,用于模拟音乐,生成新颖且高度逼真的音乐片段,并可作为一种判别模型返回有希望的语素识别结果。