使用深度自回归神经网络进行歌声合成的声学建模

Jun, 2019

使用深度自回归神经网络进行歌声合成的声学建模

Singing Voice Synthesis Using Deep Autoregressive Neural Networks for Acoustic Modeling

Yuan-Hao Yi, Yang Ai, Zhen-Hua Ling, Li-Rong Dai

TL;DR本文提出了使用自回归神经网络对歌声合成进行声学建模的方法，以更好地描述连续帧音频特征之间的依赖关系。实验结果表明，使用自回归模型的方法可以更有效地产生包含颤音的 F0 轮廓，并且可以比使用递归神经网络的传统方法实现更好的客观和主观性能。

Abstract

This paper presents a method of using autoregressive neural networks for the acoustic modeling of singing voice synthesis (SVS). Singing voice differs from speech and it contains more local dynamic movements of a

autoregressive neural networks singing voice synthesis f0 modeling spectral features chinese singing voice corpus

发现论文，激发创造

神经参数化唱歌合成器

利用基于 WaveNet 架构的新型合成模型，对参数声码器产生的特征进行建模，并使用混合密度输出，实现对每个帧的预测，避免了过度拟合，在预测错误的情况下进行自回归生成算法的正则化，成功将和声、非周期性和有声 / 无声组件预测在一起，比现有的参数化统计方法和拼接方法更为有效。

Apr, 2017

基于卷积神经网络的歌声合成

本文提出了一种基于卷积神经网络的歌声合成方法，通过建立对唱歌音符特征序列和声学特征序列之间关系的卷积神经网络模型，生成长时序的声学特征序列以去除参数生成算法，主观听感测试结果表明该方法能够产生自然流畅的歌声。

Apr, 2019

基于神经网络的语音合成方法中最新的波形产生和声学模型方法的比较

本文研究语音合成技术，并采用先进的机器学习方法克服了振幅频谱和声学模型过度平滑等局限性，在大规模众包评估中，发现生成性对抗网络和自回归模型表现优于普通循环神经网络。同时，使用相同的自回归声学模型进行评估，Wavenet 声码器优于经典的源 - 滤波器型声码器。尤其是，组合自回归声学模型和 Wavenet 声码器生成的语音波形与声学单元表现出类似的语音质量得分。

Apr, 2018

Deep Autotuner: 用于歌唱表演的音高校准网络

本论文介绍了一种基于数据驱动的自动音高校正方法，该方法利用歌唱声音和伴奏音频相应的频谱图之间的关系来预测音符级别的音高变化。该方法通过神经网络模型进行训练，包括卷积层和门控循环单元，可适用于自由即兴和协调音乐演唱。

Feb, 2020

DiffSinger：一种浅层扩散机制的歌声合成方法

本文提出了一种基于扩散概率模型的声学模型 DiffSinger，具有较好的稳定性和生成能力，较传统算法在歌唱合成上表现更好。

May, 2021

深度循环神经网络用于声学建模

本文提出了一种用于噪声环境下语音自动识别的新型深度循环神经网络模型，结合了深度神经网络和双向长短期记忆网络，在华尔街日报数据集上相较于传统深度神经网络模型提高了近 8%。

Apr, 2015

学习歌曲之美：神经唱声美化器

本研究通过引入条件变分自动编码器作为神经网络，提出了一种名为 NSVB 的算法以解决唱歌者专业音色的问题，主要包括时间伸缩技术和基于隐变量的映射算法，该算法能够有效地进行音高校正并且在客观和主观尺度上均获得了更好的实验效果。

Feb, 2022

基于频域自回归建模的语音增强

通过自回归（AR）模型在子带语音信号的频域中分离包络和载波部分，提出了一种改善语音质量和 ASR 性能的语音去混响统一框架，设计了基于双路径长短期记忆（DPLSTM）模型的神经网络结构，实现改善了子带包络和载波组件，进一步通过联合学习网络权重来优化 ASR 性能，该方法在 REVERB 挑战数据集和 VOiCES 数据集上相较基线系统以及其他去混响基准方法显示出显著的性能改善（基线系统上相对提升率为 10-24%），主观听测试进一步突显了音频还原质量的提升。

Sep, 2023

基于神经自回归模型的高效实时钢琴转录

通过改进神经网络设计和模型大小，实现实时推断的钢琴转录模型，与现有最先进模型在音符精确度上相媲美并具有高性能及轻量级特点。

Apr, 2024

通过神经音频编解码器和潜在扩散模型实现高质量歌声合成

HiddenSinger 是一个高质量的歌唱声音合成系统，使用神经音频编解码器和潜在扩散模型，解决了模型复杂性和可控性的问题，并在无标签歌声数据集上训练，产生了高品质的歌声合成结果。

Jun, 2023