歌声合成：借助注意力的一点帮助

Dec, 2019

歌声合成：借助注意力的一点帮助

Singing Synthesis: with a little help from my attention

PDF

Orazio Angelini, Alexis Moinet, Kayoko Yanagisawa, Thomas Drugman

TL;DRUTACO 是一种基于注意力机制和精简的神经网络构建的歌唱合成模型，相比前人的模型需要的人声特征建模较少，自主学习添加音乐背景下的 vibrato，但完全放弃了时间建模会影响音乐节奏的精度。

Abstract

We present UTACO, a singing synthesis model based on an attention-based sequence-to-sequence mechanism and a →

singing synthesis attention-based sequence-to-sequence vocoder neural network

发现论文，激发创造

使用前馈 Transformer 进行序列到序列歌唱合成

提出了一种基于 Transformer 模型的序列到序列歌曲合成器，使用自身注意力机制结合初始的音长模型来准确合成出作曲家想要的声音，相比于基于老师强制训练的自回归模型，具有更快的推理速度和更好的生成效果。

Oct, 2019

使用动态卷积注意力的零样本长篇语音克隆

本文介绍了一种基于注意力机制和零样本说话人自适应技术，在语音克隆技术中可以从几秒钟的参考语音中复制目标语音，从而实现长话语的普遍化，并且可以保持较高的自然度和相似性。

Jan, 2022

Tacotron: 面向端到端的语音合成

该研究提出了 Tacotron，一种端到端的生成式文本转语音模型，通过多个关键技术在序列到序列的框架下进行良好性能表现，同时模型以帧为单位直接生成语音，表现自然度和速度方面优于传统的参数化系统。

Mar, 2017

基于卷积神经网络的歌声合成

本文提出了一种基于卷积神经网络的歌声合成方法，通过建立对唱歌音符特征序列和声学特征序列之间关系的卷积神经网络模型，生成长时序的声学特征序列以去除参数生成算法，主观听感测试结果表明该方法能够产生自然流畅的歌声。

Apr, 2019

对抗训练的多歌手序列到序列歌唱合成器

本文提出了一种高质量的歌唱合成器，它能够在有限的可用录音基础上模拟出一种声音，采用序列到序列的歌唱模型，并设计了一个多歌手框架来利用不同歌手的现有歌唱数据，以减轻歌唱评分不平衡的问题。此外，为了使编码器输出与歌手无关，我们加入了一个对抗性任务来保证模型的平衡性及多随机窗口鉴别器（MRWDs）以使网络成为 GAN。客观和主观的评估表明，所提出的合成器比基准测试能够产生更高质量的歌唱声音（MOS 值分别为 4.12 和 3.53）。特别是高音元音的表达得到了显著改善。

Jun, 2020

高质量流媒体语音合成低，句子长度无关的延迟

本文提出了一种针对实时应用具有低延迟的 CPU 端到端文本转语音系统，使用自回归基于注意力机制的序列到序列声学模型和 LPCNet 声码器进行波形生成，实验结果显示，该系统能够在 CPU 上几乎达到 31 倍的实时最小延迟，并且能够生成几乎自然的高质量语音。

Nov, 2021

AttS2S-VC：具有注意力机制和上下文保留机制的序列到序列语音转换

本研究提出一种基于注意力机制和上下文保留机制的序列到序列学习（Seq2Seq）方法，用于语音转换（VC）任务。该方法稳定加速了训练过程，并且不需要预先对源和目标语音数据进行时间对齐。在实验中，与高斯混合模型（GMM）和循环神经网络（RNN）相比，我们提出的 VC 框架仅需一天时间训练，可以达到接近于 RNN 提供的语音合成质量的水平。

Nov, 2018

神经参数化唱歌合成器

利用基于 WaveNet 架构的新型合成模型，对参数声码器产生的特征进行建模，并使用混合密度输出，实现对每个帧的预测，避免了过度拟合，在预测错误的情况下进行自回归生成算法的正则化，成功将和声、非周期性和有声 / 无声组件预测在一起，比现有的参数化统计方法和拼接方法更为有效。

Apr, 2017

通过在 Mel 频谱预测上调节 WaveNet，进行自然语音合成

该论文阐述了 Tacotron 2 的神经网络框架，该框架可以从文本中直接合成语音，其系统由一种递归的序列到序列的特征预测网络和一个修改的 WaveNet 模型组成，能够实现与专业录制的语音相当的平均意见分数 (MOS)。

Dec, 2017

对抗训练的端到端朝鲜语歌声合成系统

本文提出了一种从歌词和符号旋律生成端到端的韩国歌唱声音合成系统，包括三种新颖方法：1）语音增强掩蔽，2）文本和音高的本地条件对超分辨率网络，3）条件对抗训练。该系统包括两个主要模块：从给定的输入信息生成 mel-spectrogram 的 mel-synthesis 网络和将生成的 mel-spectrogram 上采样成 linear-spectrogram 的超分辨率网络。在 mel-synthesis 网络中，应用语音增强掩蔽仅从输入文本生成隐式谐振峰掩蔽，这使得歌唱声音的语音控制更加准确。此外，本文还表明了本地文本和音高和条件对抗训练是超分辨率过程中生成真实人类歌声的关键。最后，通过定量和定性评估，证实了所有提出方法的有效性。

Aug, 2019