通过自监督表示混合和嵌入初始化最大化跨语言 TTS 适应的数据效率

Jan, 2024

通过自监督表示混合和嵌入初始化最大化跨语言 TTS 适应的数据效率

Maximizing Data Efficiency for Cross-Lingual TTS Adaptation by Self-Supervised Representation Mixing and Embedding Initialization

PDF

Wei-Ping Huang, Sung-Feng Huang, Hung-yi Lee

TL;DR本文介绍了一种有效的迁移学习框架，用于在文本转语音系统中进行语言适应，重点是通过使用尽可能少的标记和未标记数据实现语言适应。实验结果表明，我们的框架能够仅使用 4 个标记数据和 15 分钟未标记数据合成未知语言的可懂语音，还能在可获得更多数据的情况下超越传统技术，凸显了我们的高效语言适应框架的潜力。

Abstract

This paper presents an effective transfer learning framework for language adaptation in text-to-speech systems, with a focus on achieving language adaptation using minimal labeled and →

transfer learning language adaptation text-to-speech systems labeled data unlabeled data

发现论文，激发创造

自我监督表示改善端到端语音翻译

本文旨在探索自监督预训练语音表示是否可以优化高和低资源语音翻译任务，并且这些语音表示是否可以有效地和其他常见的低资源端到端语音翻译方法相结合，以及这些表示是否可以良好地跨语种迁移。结果表明，自监督预训练功能可以始终提高翻译性能，并且跨语言传输可以扩展到各种语言而无需或只需要少量调整。

Jun, 2020

可轉移音素嵌入的少樣本跨語言語音合成

本文研究一种可转移的音位嵌入框架，旨在解决少样本跨语言语音合成问题。在 8 分钟以下数据提供的极少样本情况下，作者提出了包括基于音位 TTS 模型和码本模块在内的框架。通过利用音位级平均的自我监督学习特征，实现了合成语音质量的有效改进。实验证明，使用 30 秒左右数据就能够合成出可理解的说话声音。

Jun, 2022

简单有效的无监督语音翻译

本文利用无监督语音识别、机器翻译与语音合成技术，探讨实现无标注数据建立语音翻译系统的方法，通过管道方法或生成伪标签，对端到端语音翻译模型进行训练。同时，提出一种无监督域自适应方法，能够提供一定的性能提升。实验结果表明，本文提出的无监督语音翻译方法，在 Libri-Trans 基准测试的 BLEU 分数上超过以前报告的无监督效果的 3.2 个点，在 CoVoST2 数据集上，本文的最佳系统相对于最佳监督学习的端到端模型（无预训练），在五个语种（X-En）上平均提高 5.0 个 BLEU 分数。在 MuST-C 和 CVSS 基准测试上，本文也取得了有竞争力的结果。

Oct, 2022

面向低资源语言的数据高效语音合成无监督预训练

本文提出了一种基于无监督预训练的神经文本朗读生成模型，通过学习 Warped Mel-Spectrogram 的重构来优化时序关系，进一步提高数据利用效率，在低资源语言情境下实现了显著的性能提升。

Mar, 2023

智能代理中口语理解的无监督迁移学习

通过使用语言模型的嵌入（ELMo）技术，提出了一种更快、更简单的无监督预训练方法 ELMo-Light（ELMoL），在大量未标记的句子上进行的无监督预训练，在语音识别任务上比从头开始训练或传统的有监督迁移学习方法表现更好，并且当域内的标记样本仅有 1000 个时，我们的技术可以匹配使用 10-15 倍更多标记的样本从头开始训练的性能。

Nov, 2018

低资源情景下 TTS 系统的语言适应初探

本文探讨了基于自监督学习 (SSL) 多语言模型的 ZMM-TTS 语言适应能力，研究发现了预训练语言和目标语言的语音学相似性、语言类别、微调数据集大小以及说话人数量对适应性的影响，并且发现相对于配对数据，仅音频数据在微调中并不总是最优选择。同时，研究还包括了说话人相似度、语言识别以及预测的 MOS。

Jun, 2024

使用自监督预训练和数据增强增强的直接语音翻译

本文讨论了直接语音到语音翻译模型面临的数据稀缺性问题，探索了自监督预训练和数据增强技术来解决此问题，实验表明自监督预训练可以提高模型性能，结合数据增强技术可以进一步提高模型性能。

Apr, 2022

自我训练的端到端语音翻译

本文主要探讨了在端到端语音翻译中数据稀缺的问题，并提出了一种利用级联和端到端语音翻译模型生成伪标签的方法，在 MuST-C 英法和英德数据集上达到了领先水平，同时也比仅对编码器进行语音识别任务的预训练方法更加有效。最后，通过直接使用端到端模型生成伪标签的自我训练方法证明了其有效性。

Jun, 2020

从文本学会说话：无监督文本预训练的零射多语言语音合成

使用零样本学习和多语言语言模型，该研究提出了一种只使用目标语言文本数据进行多语言语音合成（TTS）的方法，其能够成功地为只有文本资源的低资源语言开发 TTS 系统，大大拓展了 TTS 的覆盖范围并能取得高度理解度。

Jan, 2023

无监督的可解释解缩表示学习用于远程对话语音识别适应

该论文提出了一种新颖的无监督自适应方法，通过学习利用目标领域的无标签数据和标记的领域外数据，合成标记数据，从而解决自然语言处理中对于各种语言和领域进行自然语言处理的需求。

Jun, 2018