- 使用非平行训练数据从语音合成到语音转换的迁移学习
本文提出了一种基于 TTS-VC 转移学习的语音转换框架,采用多说话人语音合成系统和编码器 - 解码器架构等技术,实现任意语音转换且在语音质量、自然度和说话人相似度等方面均优于竞争方法。
- Flowtron: 基于流的自回归生成网络用于文本转语音合成
本文提出了一种自回归基于流的生成网络 Flowtron,用于对语音的合成,并提供了控制语音变化和风格转移的功能。Flowtron 通过最大化训练数据的可能性进行优化,学习将数据映射到一个潜在空间,可以操纵语音合成的许多方面。与现有模型进行比 - EMNLP基于前缀到前缀框架的增量式文本转语音合成
利用前缀到前缀框架构建的神经增量文本转语音系统,实现了在线语音合成,从而将计算延迟和输入延迟分别降至 O (1) 水平。
- 带缩减的模块化元学习
提出了一种能够自动发现并学习任务特定和通用可重用模块的元学习方法,以实现针对低数据任务的长时间自适应模型,适用于少样本 TTS 等通常存在少量数据和长时间自适应问题的领域,并在实验证明其表现优于现有元学习方法,包括 MAML,iMAML 和 - JVS 语料库:免费的日本多说话人语音语料库
本文介绍了日语语音库 JVS 的构建过程和规格,并概述了其在话音合成、语音转换和多人训练等方面的研究应用。
- MelNet: 频域音频生成模型
利用二维时频表示,概率模型和多尺度生成,设计了一个能够捕捉高时间尺度结构的模型,可以在各种音频生成任务中达到比以往更好的效果。
- 从说话人验证到多说话人语音合成的迁移学习
描述了一个基于神经网络的文本转语音(TTS)合成系统,可以以许多不同讲话者的声音生成语音音频,该系统由三个独立训练的部分组成,包括训练说话者编码器网络进行讲话者验证任务,基于 Tacotron 2 的序列合成网络,以及将梅尔频谱图转换为时间 - 机器语音链一次性说话人适应
本文提出了一种新的语音链机制,该机制通过在语音链环路中集成说话人识别模型,并实现一次性说话人适应性,从而提高语音生成和自动语音识别的性能。
- 高效神经音频合成
本文针对顺序模型中高效采样的问题,提出了一种基于 WaveRNN 和权重修剪和子缩放 WaveRNN 的通用技术,可以在保持高输出质量的同时提高采样速度。
- SPEECH-COCO: 60 万对齐 MSCOCO 数据集的视觉对应口述字幕
本研究介绍了 MSCOCO 数据集的增强版本,其中添加了语音和文本。使用文本转语音(TTS)合成生成语音说明,在语音信号中添加了不流畅和速度扰动以使其更加自然。此语料库可用于语言和视觉(LaVi)任务,其中包括语音输入或输出。同时在此数据集 - 深度学习中的语音链:说话中的听取
该研究开发了一个基于深度学习的闭环语音链模型,并构建了将自动语音识别和文本转语音综合的方法。实验结果表明,该方法显著提高了性能,实现了人类语音知觉和制作行为的集成。
- Tacotron: 面向端到端的语音合成
该研究提出了 Tacotron,一种端到端的生成式文本转语音模型,通过多个关键技术在序列到序列的框架下进行良好性能表现,同时模型以帧为单位直接生成语音,表现自然度和速度方面优于传统的参数化系统。
- ACL克罗地亚文本中的非标准词归一化
本文介绍了文本归一化的方法,包括使用基于规则和查找字典的方法,以及提出用于分类克罗地亚语非标准单词的整个分类法。效果显示,针对克罗地亚语的文本归一化的标记率为 95%,其中 80%的扩展单词以正确的形态呈现。
- 多语言文本分析用于文本到语音合成
本文介绍了一种基于(加权)有限状态转化器的文本分析模型,可用于 TTS 合成,其使用词汇工具包构建转换器,适用于 8 种语言,包括西班牙语、意大利语、罗马尼亚语、法语、德语、俄语、普通话和日语。