针对低资源语言的文本转语音自动 MOS 预测的资源有效调整策略

May, 2023

针对低资源语言的文本转语音自动 MOS 预测的资源有效调整策略

Resource-Efficient Fine-Tuning Strategies for Automatic MOS Prediction in Text-to-Speech for Low-Resource Languages

Phat Do, Matt Coler, Jelske Dijkstra, Esther Klabbers

TL;DR通过对 BVCC 和 SOMOS 数据集进行 wav2vec 2.0 预训练和微调，实现了针对 LRL West Frisian 的零样本 MOS 预测。研究表明，在 30% 的数据使用量之后，使用更多的数据并没有显著性的提高性能；同时，对单个听众的数据进行微调有望提高系统级的性能和稳定性。这些发现有助于开发 LRL 语音合成系统的零样本 MOS 预测和初期评估。

Abstract

We train a mos prediction model based on wav2vec 2.0 using the open-access data sets BVCC and SOMOS. Our test with neural TTS data in the low-resource language (LRL) West Frisian shows that pre-training on BVCC b

mos prediction model wav2vec 2.0 low-resource language fine-tuning listener

发现论文，激发创造

低资源多语言和零样本多说者 TTS

在这项工作中，我们将零样本语音克隆和多语言低资源语音合成的任务结合在一起。通过使用语言不可知的元学习（LAML）程序和对 TTS 编码器的修改，我们证明了一个系统可以学习在只有 5 分钟的训练数据下说一个新语言，同时保留了推断新学习语言中甚至看不到的说话者声音的能力，并提供了开源的代码和训练模型。

Oct, 2022

基于自监督预训练声学模型的多语言零资源语音识别

本文研究使用预训练模型来解决无监督语音识别中的音素和单词级别的问题。通过在 IPA 音素转写上微调预训练模型并使用语言模型进行解码，实验结果表明该方法可在某些语言上实现低于 20% 的单词错误率，8 种语言的平均错误率为 33.77%。

Oct, 2022

跨语言迁移学习的低资源语言端到端文本转语音

本文针对低资源语言语音合成任务，提出了从高资源语言中迁移知识的方法，并通过学习源与目标语言之间的语言符号映射，有效地构建了 TTS 系统，初步实验表明，只需要约 15 分钟的成对数据即可获得相对良好的 TTS 系统。

Apr, 2019

低资源情景下 TTS 系统的语言适应初探

本文探讨了基于自监督学习 (SSL) 多语言模型的 ZMM-TTS 语言适应能力，研究发现了预训练语言和目标语言的语音学相似性、语言类别、微调数据集大小以及说话人数量对适应性的影响，并且发现相对于配对数据，仅音频数据在微调中并不总是最优选择。同时，研究还包括了说话人相似度、语言识别以及预测的 MOS。

Jun, 2024

基于预训练 ASR 模型的低资源语音转文本翻译策略

本文提出了改进低资源语音转文本翻译性能的技术和发现，实验结果显示多语言自动语音识别系统在低资源场景下作为良好的初始化，CTC 作为额外的目标有助于重新排序内部表示并提高最终翻译。通过实验，确定了对改进低资源设置最有贡献的各种因素（初始化、目标和超参数）。在只有 300 小时的预训练数据下，模型在 Tamasheq - French 数据中取得了 7.3 的 BLEU 分数，比 IWSLT 2022 的先前发表作品高 1.6 个百分点。

May, 2023

使用合成数据和迁移学习在低资源文本转语音系统中进行快速说话者适应

使用端到端深度学习方法构建的文本到语音系统，通过高资源语言数据和合成数据进行迁移学习，利用目标语言中的现有单语者文本到语音系统生成领域内合成数据，实现在低资源环境下训练高质量的单语者文本到语音系统，证明了双重预训练和仅解码器微调的重要性，并提出了一种低成本的自定义文本到语音模型训练解决方案。

Dec, 2023

通过多语言微调和持续预训练为新的欠资源语言调整多语音表示模型

本研究尝试将预训练的多语言 wav2vec 2.0 神经模型应用于研究极度濒危的阿伊努语，通过多语言微调和预训练对模型进行改进，结果显示继续预训练是适应新语言的最有效方法，并且利用类似语言的数据进行微调可以显著减少错误率。

Jan, 2023

利用声学伪标记预测正向迁移，以改进低资源语音识别

通过引入相似、高资源语言的数据，可以提高低资源语言的自动语音识别性能，并且通过计算基于诱导声学单元的序列分布的声学令牌分布相似度 (ATDS)，能够准确预测目标语言的 ASR 性能。

Feb, 2024

改进基于自主学习的 MOS 预测网络

该研究通过对先前基于自监督学习的 MOS 预测模型进行数据、训练和后训练的特定改进，并采用多种技术评估其有效性，包括 wav2vec 2.0 模型、转移学习、不同的批处理方法和方法的量化等，实现自动预测 MOS 值。

Apr, 2022

基于预训练语音模型的低资源语音识别改进：继续预训练与半监督训练

本文通过在多种低资源语言的未标注同语言音频数据上使用 XLSR-53 预训练模型进行持续预训练来改进自动语音识别的性能，结果表明持续预训练在单词错误率方面与半监督训练的效果相当且更加高效。

Jul, 2022