基于发音学特征的低资源文本转语音语言无关元学习
在这项工作中,我们将零样本语音克隆和多语言低资源语音合成的任务结合在一起。通过使用语言不可知的元学习(LAML)程序和对 TTS 编码器的修改,我们证明了一个系统可以学习在只有 5 分钟的训练数据下说一个新语言,同时保留了推断新学习语言中甚至看不到的说话者声音的能力,并提供了开源的代码和训练模型。
Oct, 2022
通过大规模多语言预训练和元学习,我们构建了一个能够在超过 7000 种语言中生成语音的单一文本转语音合成系统,并通过客观评估和人工评价验证了该系统在多样化语言环境下的性能。通过公开发布我们的代码和模型,我们旨在为语言资源有限的社区提供支持,并在语音技术领域促进进一步的创新。
Jun, 2024
利用音频字向量和自编码器实现跨模态的语音识别,演示了即使缺乏训练数据,也可以从少量音频和文本之间的嵌入对齐中进行 ASR 系统的训练。
Oct, 2018
本文针对低资源语言语音合成任务,提出了从高资源语言中迁移知识的方法,并通过学习源与目标语言之间的语言符号映射,有效地构建了 TTS 系统,初步实验表明,只需要约 15 分钟的成对数据即可获得相对良好的 TTS 系统。
Apr, 2019
该研究针对缺乏已标注数据的零资源语言开发语音应用的挑战,特别使用声学词嵌入(AWE),通过多语言转移利用来自几种资源丰富的语言的已标注数据。该研究介绍了一种新的神经网络,优于现有的 AWE 模型在零资源语言上的表现,研究还探讨了资源丰富语言的选择对结果的影响。AWE 应用于斯瓦希里语广播中的仇恨言论检测的关键词识别系统,展示了在实际场景中的稳健性。此外,新颖的语义 AWE 模型提高了语义查询示例搜索的性能。
Jan, 2024
该论文介绍了一种基于元学习的低资源自动语音识别的方法,通过用多语言进行预训练并使用模型无关元学习算法(MAML)来快速适应目标语言,该方法名为 MetaASR,经过初步测试,发现该方法在各个目标语言中均显著优于现有的多任务预训练方法,而且开启了一种将元学习应用于更多语音相关应用的新研究方向。
Oct, 2019
本文研究一种可转移的音位嵌入框架,旨在解决少样本跨语言语音合成问题。在 8 分钟以下数据提供的极少样本情况下,作者提出了包括基于音位 TTS 模型和码本模块在内的框架。通过利用音位级平均的自我监督学习特征,实现了合成语音质量的有效改进。实验证明,使用 30 秒左右数据就能够合成出可理解的说话声音。
Jun, 2022
采用元学习方法对自适应文本到语音合成进行研究,通过共享 WaveNet 核和独立学习的扬声器嵌入来学习多讲话者模型,该方法能够成功地将多扬声器神经网络进行快速适应并获得最新演讲者的自然音质和语音相似度的最新结果。
Sep, 2018
本文介绍一种多语言语音合成方法,该方法使用上下文参数生成的元学习概念,使用更少的训练数据和更多的语言产生自然音质的多语言语音;其模型使用 Tacotron 2 和完全卷积输入文本编码器,在训练中使用 CSS10 数据集和新的基于 5 种语言的通用语音数据集,同时使用对抗分类器和梯度反转层增强语音克隆。实验结果表明,该模型跨语言信息共享效果良好,在 “代码切换” 语音合成中表现更自然、准确。
Aug, 2020
本文通过使用发音特征将多种训练语言的音素映射到目标语言中,对多语言预训练的 wav2vec 2.0 模型进行微调,以在没有标记数据的情况下提高其对未见过的语言的识别能力,并在实验中取得了较优效果。
Sep, 2021