- ACLCM-TTS:通过加权采样器和一致性模型提高实时文本合成效率
通过引入连续时间扩散模型,CM-TTS 在不需要对抗训练或预训练模型依赖的情况下,在较少的步骤中实现了高质量的语音合成,通过动态概率设计加权采样器来确保整个训练过程的无偏学习。实验证实了 CM-TTS 相对于现有的单步语音合成系统的卓越性能 - EMNLPDPP-TTS: 通过行列式点过程多样化语音的韵律特征
使用基于确定性点过程(DPP)的 DPP-TTS 模型,我们能够生成同时考虑每个样本中以及多个样本之间感知多样性的语音样本,从而产生具有更多多样化韵律的语音样本,提高语音的自然度。
- 大规模自动有声书制作
开发了一个系统,利用神经文本转语音技术从在线电子书中自动生成高质量的有声读物,并允许用户自定义朗读速度、风格、情感语调,并使用少量样本音频匹配所需的声音。
- 面向低资源语言的数据高效语音合成无监督预训练
本文提出了一种基于无监督预训练的神经文本朗读生成模型,通过学习 Warped Mel-Spectrogram 的重构来优化时序关系,进一步提高数据利用效率,在低资源语言情境下实现了显著的性能提升。
- 从文本学会说话:无监督文本预训练的零射多语言语音合成
使用零样本学习和多语言语言模型,该研究提出了一种只使用目标语言文本数据进行多语言语音合成(TTS)的方法,其能够成功地为只有文本资源的低资源语言开发 TTS 系统,大大拓展了 TTS 的覆盖范围并能取得高度理解度。
- EmoDiff:带软标签引导的可控强度情感语音合成
本文提出 EmoDiff 模型,采用分类器指导的软标签技术来控制情感强度,从而能够在维持高质量的同时精确控制情感强度,并能够生成出具有特定情感强度的多样化语音。
- 用于少样本文本转语音说话人自适应的剩余适配器
本研究提出了一种参数高效的少样本说话人自适应方法,通过使用可训练轻量级模块 (residual adapters) 来增加骨干模型 (backbone model) 实现对各种目标说话人的共享,可以在保持语音自然性和说话人相似性的同时仅使用 - 基于参考模型的半监督学习在低资源 TTS 中的应用
本论文提出了一种半监督学习的神经语音合成方法,该方法专注于在标记目标数据量有限的情况下实现性能相对较好的 TTS,并能解决原来的自回归模型中出现的曝光偏差问题,实验结果表明,该方法能够在目标数据量有限的情况下,显著提高测试数据的语音合成自然 - 多说话人神经语音合成的多任务对抗训练算法
本研究提出了一种基于多任务对抗训练的多说话者神经语音合成模型的新型训练算法,能够提高合成语音的质量,并能够推广到未见过的说话者。
- 混搭:关于多语言文本转语音训练语料库组成的实证研究
本研究通过全面的消融研究,旨在了解训练语料库的各种因素,例如语言家族关系、性别构成和说话人数是如何对多语音合成质量的贡献的,并得出了女性说话数据在大多数情况下是首选的结论,并且并不总是从目标语言方言中拥有更多说话者对训练语料库有益,这些发现 - 零样本多说话人文本语音中的准确声调复制
本论文采用 utterance 级别的规范化和发音人嵌入,在提取精细的韵律特征的同时,成功实现了音频发音人与其语调的克隆。通过客观评估和人工试验,结果表明可以在不降低质量的条件下,成功实现语音的克隆。
- SOMOS:三星开放式 MOS 数据集用于神经文本转语音合成的评估
该论文介绍了一个大型的神经文本转语音(TTS)数据集 SOMOS,该数据集可以用来训练自动 MOS 预测系统,以评估现代合成器。该数据集由 20k 个来自 200 种 TTS 系统的合成语音组成,提供平衡和充足的领域和长度覆盖率,并在三个英 - WavThruVec: 基于中间特征的语音合成中的潜在语音表示
WavThruVec is a two-stage neural text-to-speech architecture that uses high-dimensional Wav2Vec 2.0 embeddings as interm - ACL基于发音学特征的低资源文本转语音语言无关元学习
通过使用来自发音矢量而非语音学单元的嵌入来学习跨语言的音素表示,结合语言无关的元学习,使得我们只需要 30 分钟的语音数据即可在以前从未见过的语言中,通过微调高质量的文本转语音模型,并由以前未见过的发言者发音。
- 无监督的词级韵律标记技术用于可控语音合成
提出了一种基于决策树和 GMM 的无监督词级韵律标记方法,利用这种方法训练的 TTS 系统可以实现可控语音合成。实验结果显示,与 typical FastSpeech2 模型相比,使用词级韵律标记的 TTS 模型不仅具有更好的自然度,而且还 - ICML元音风格语音:多说话人适应性文本转语音生成
该研究提出了一种名为 StyleSpeech 的新型神经文本到语音合成模型,其中使用 Style-Adaptive Layer Normalization 以及 Meta-StyleSpeech 等技术,实现了在只有短时音频样本的情况下,能 - Diff-TTS: 一种文本到语音去噪扩散模型
本文介绍了一种新型非自回归 TTS 模型 Diff-TTS,以噪声信号与扩散时间步长探索去噪扩散框架,同时引入基于可能性的 TTS 优化方法,利用加速采样方法提高波形合成速度,实验证明 Diff-TTS 单独搭载一枚 NVIDIA 2080 - 利用跨领域语音情感识别协助,使用无标记情感数据集进行情感可控语音合成
本文提出了一种新颖的情感文本转语音合成方法,通过跨域语音情感识别模型和情感文本转语音模型进行联合训练,从而在不需要情感标签的 TTS 数据集上生成具有情感表现力的语音,并且几乎不影响其语音质量。
- 并行 Tacotron:非自回归且可控 TTS
本文提出了一种用于神经端到端文本到语音的非自回归神经网络模型 Parallel Tacotron,该模型采用变分自编码器来提高自然性,轻量级卷积来捕获局部上下文,并引入迭代光谱损失以进一步提高自然性,实验结果表明,Parallel Taco - 低成本神经文本转语音系统的 LPCNet 束缚声码器
该研究提出了两种方法(Sample-bunching 和 Bit-bunching)来进一步降低 LPCNet 语音编解码器的复杂度,并与深度卷积 TTS 声学模型相结合,证明该技术在移动设备上可以实现 2.19 倍的运行时改进,同时 TT