基于发音学特征的低资源文本转语音语言无关元学习

ACLMar, 2022

基于发音学特征的低资源文本转语音语言无关元学习

Language-Agnostic Meta-Learning for Low-Resource Text-to-Speech with Articulatory Features

Florian Lux, Ngoc Thang Vu

TL;DR通过使用来自发音矢量而非语音学单元的嵌入来学习跨语言的音素表示，结合语言无关的元学习，使得我们只需要 30 分钟的语音数据即可在以前从未见过的语言中，通过微调高质量的文本转语音模型，并由以前未见过的发言者发音。

Abstract

While neural text-to-speech systems perform remarkably well in high-resource scenarios, they cannot be applied to the majority of the over 6,000 spoken languages in the world due to a lack of appropriate training data. In this work, we use embeddings derived from →

neural text-to-speech articulatory vectors meta learning phoneme representations low-resource languages

发现论文，激发创造

低资源多语言和零样本多说者 TTS

在这项工作中，我们将零样本语音克隆和多语言低资源语音合成的任务结合在一起。通过使用语言不可知的元学习（LAML）程序和对 TTS 编码器的修改，我们证明了一个系统可以学习在只有 5 分钟的训练数据下说一个新语言，同时保留了推断新学习语言中甚至看不到的说话者声音的能力，并提供了开源的代码和训练模型。

Oct, 2022

元学习文本转语音在 7000 多种语言中的应用

通过大规模多语言预训练和元学习，我们构建了一个能够在超过 7000 种语言中生成语音的单一文本转语音合成系统，并通过客观评估和人工评价验证了该系统在多样化语言环境下的性能。通过公开发布我们的代码和模型，我们旨在为语言资源有限的社区提供支持，并在语音技术领域促进进一步的创新。

Jun, 2024

基于语音和文本数据的音位结构学习，较少资源近乎无监督的语音识别

利用音频字向量和自编码器实现跨模态的语音识别，演示了即使缺乏训练数据，也可以从少量音频和文本之间的嵌入对齐中进行 ASR 系统的训练。

Oct, 2018

跨语言迁移学习的低资源语言端到端文本转语音

本文针对低资源语言语音合成任务，提出了从高资源语言中迁移知识的方法，并通过学习源与目标语言之间的语言符号映射，有效地构建了 TTS 系统，初步实验表明，只需要约 15 分钟的成对数据即可获得相对良好的 TTS 系统。

Apr, 2019

零资源语言的多语种音频词向量

该研究针对缺乏已标注数据的零资源语言开发语音应用的挑战，特别使用声学词嵌入（AWE），通过多语言转移利用来自几种资源丰富的语言的已标注数据。该研究介绍了一种新的神经网络，优于现有的 AWE 模型在零资源语言上的表现，研究还探讨了资源丰富语言的选择对结果的影响。AWE 应用于斯瓦希里语广播中的仇恨言论检测的关键词识别系统，展示了在实际场景中的稳健性。此外，新颖的语义 AWE 模型提高了语义查询示例搜索的性能。

Jan, 2024

元学习为端到端低资源语音识别

该论文介绍了一种基于元学习的低资源自动语音识别的方法，通过用多语言进行预训练并使用模型无关元学习算法（MAML）来快速适应目标语言，该方法名为 MetaASR，经过初步测试，发现该方法在各个目标语言中均显著优于现有的多任务预训练方法，而且开启了一种将元学习应用于更多语音相关应用的新研究方向。

Oct, 2019

可轉移音素嵌入的少樣本跨語言語音合成

本文研究一种可转移的音位嵌入框架，旨在解决少样本跨语言语音合成问题。在 8 分钟以下数据提供的极少样本情况下，作者提出了包括基于音位 TTS 模型和码本模块在内的框架。通过利用音位级平均的自我监督学习特征，实现了合成语音质量的有效改进。实验证明，使用 30 秒左右数据就能够合成出可理解的说话声音。

Jun, 2022

高效自适应文本转语音

采用元学习方法对自适应文本到语音合成进行研究，通过共享 WaveNet 核和独立学习的扬声器嵌入来学习多讲话者模型，该方法能够成功地将多扬声器神经网络进行快速适应并获得最新演讲者的自然音质和语音相似度的最新结果。

Sep, 2018

一个模型，多种语言：元学习应用于多语言文本朗读

本文介绍一种多语言语音合成方法，该方法使用上下文参数生成的元学习概念，使用更少的训练数据和更多的语言产生自然音质的多语言语音；其模型使用 Tacotron 2 和完全卷积输入文本编码器，在训练中使用 CSS10 数据集和新的基于 5 种语言的通用语音数据集，同时使用对抗分类器和梯度反转层增强语音克隆。实验结果表明，该模型跨语言信息共享效果良好，在 “代码切换” 语音合成中表现更自然、准确。

Aug, 2020

简单而有效的零样本跨语言音素识别

本文通过使用发音特征将多种训练语言的音素映射到目标语言中，对多语言预训练的 wav2vec 2.0 模型进行微调，以在没有标记数据的情况下提高其对未见过的语言的识别能力，并在实验中取得了较优效果。

Sep, 2021