- 使用对抗性声码器加速 TTS 合成
该研究提出了一种使用生成对抗网络 (GANs) 的方法,从感知上启发的频谱图到简单的幅度谱图进行映射,以达到比现有的 TTS 系统更快的速度和更好的性能。
- 基于序列到序列模型的直接语音到语音翻译
该研究提出了一种基于注意力机制的端到端学习的序列到序列神经网络,能够直接将一种语言的语音翻译成另一种语言的语音,无需中间文本表示,该方法通过学习将语音谱图映射到目标语言的谱图,同时也演示了译后语音合成的能力。研究在两个西班牙语到英语的语音翻 - AAAIPerformanceNet: 多频段卷积残差网络得分转音频音乐生成
提出了一个深度卷积模型,学习了乐谱和音频之间的符号表示之间的得分与音频之间的映射,通过用户研究发现,该模型在自然度和情感表现方面的平均意见分数高于 WaveNet 模型和两个商业声音库。
- 利用多头卷积神经网络实现快速谱图反演
本研究提出了一种使用多头卷积神经网络(MCNN)架构从频谱生成波形的方法,而不需要迭代算法,能显著提高计算效率。对 MCNN 进行了大规模数据集的训练,并且损失函数的定义关注于声学感知质量。证明了 MCNN 是一种非常有前途的高质量语音合成 - 基于数据驱动的中层次音乐特征建模方法
通过使用深度学习,本文提取了中等级别的音乐特征和描述符,并在情感识别方面进行了应用。
- 基于频谱图的音频事件时序定位的目标检测
本文提出了 “事件度” 的概念用于音频事件检测,并从视觉上类比为在频谱图中出现的物体检测问题,提出以在视觉中对象检测模型来解决单音或多音频事件检测问题并得出了与当前最先进水平相当的结果。
- NIPS大规模音乐标记的端到端学习
本研究探讨了基于波形输入和基于视听特征学习的卷积神经网络的两种音乐自动标记设计范式在变量大小的数据集上表现的比较,实验结果表明当训练数据不足时,采用音乐领域假设的基于波形的模型在大规模数据场景中的表现优于基于谱图的模型。
- 卷积循环神经网络多声源到达方向估计
本文提出了一种深度神经网络,用于估算多个声源的到达方向,并通过使用所有通道的频谱图的幅度和相位作为输入来避免任何显式特征提取步骤。结论表明,该网络能够以高精度估算多个同时存在源的数量和各自的到达方向,并生成具有高信噪比的空间伪频谱。
- 使用卷积神经网络进行处理的音频光谱图表示
本文综述了神经网络在音频生成中应用的数据表示方法,着重分析了使用频谱图进行音频风格迁移的问题和挑战。
- 使用卷积神经网络比较环境声音分类的时频表示
本研究比较了不同信号处理方法在卷积神经网络进行音频分类任务时所得到的频谱图表示,发现 Mel-scaled STFT 方法表现最佳。同时还发现,信号的特点以及转化窗口的大小都对分类结果有影响,2D 卷积神经网络在大多数情况下都比 1D 效果 - 深度多视图模型用于故障分类
本文主要介绍了一种新的基于卷积神经网络的多视角分类方法,用于区分来自 Advanced Laser Interferometer Gravitational-wave Observatory 的引力波数据中的异常噪音(glitches)并进 - 针对乐谱图像的分数跟随技术
本文介绍了一种通过神经网络匹配短音频片段与乐谱中对应像素位置的方法。实验结果表明,使用深度学习技术处理音乐乐谱具有可行性且是一个有前途的研究方向。