减少、重用、循环利用：扰动数据是否比其他语言增强对于低资源自我监督语音模型更好

Sep, 2023

减少、重用、循环利用：扰动数据是否比其他语言增强对于低资源自我监督语音模型更好

Reduce, Reuse, Recycle: Is Perturbed Data better than Other Language augmentation for Low Resource Self-Supervised Speech Models

PDF

Asad Ullah, Alessandro Ragano, Andrew Hines

TL;DR利用音频增强方法预训练自监督表示学习（SSRL）模型，相比监督模型，在低资源语言中改善了下游音素识别性能。研究比较了不同的增强技术，包括音高变化、噪音添加、目标语言口音和其他语言语音，并发现了综合增强（噪音 / 音高）是最佳的增强策略，超过了口音和语言知识迁移。研究结果表明，在资源有限的语言中，领域内的合成增强可以优于口音或其他语言的知识迁移。

Abstract

self-supervised representation learning (SSRL) has improved the performance on downstream phoneme recognition versus supervised models. Training SSRL models requires a large amount of →

self-supervised representation learning phoneme recognition audio augmentation low resource languages pre-training data

发现论文，激发创造

利用数据增强提高低资源语音识别的准确性

研究发现，利用自训练及文本转语音增广训练数据可以有效提高低资源语种的 ASR 性能，为解决数据稀缺问题提供了一种高效解决方案。

May, 2023

低资源语音识别的语音合成数据增强

本研究旨在提出一种新的数据增强方法来改善自动语音识别模型，该方法生成合成文本和合成音频，使用该方法可以提高 Quechua 语言的 ASR 模型的词错误率（WER）达到 8.73％的改善。

Apr, 2022

利用多组噪声扩充数据进行跨语言口语理解的学习

本文提出了一种通过机器学习方法处理低资源语言中语音理解数据的方法，通过多个模型同时对不同扩充的训练数据对彼此提供监督信号，实现了对数据的去噪处理，在两个基准数据集上的实验结果表明，我们的方法优于现有技术达 3.05% 和 4.24% 的性能表现。

Sep, 2021

使用预训练语言模型进行口语理解的数据增强

本研究提出了一种数据增量方法，利用预训练语言模型提高生成话语的变异性和准确性，同时探讨和提出了两种在 SLU 中被忽视的半监督学习情况的解决方案。实证结果表明，我们的方法可以生成合成训练数据，在各种情况下提高了语言理解模型的性能。

Apr, 2020

无需更多数据：通过文本到语音数据增强来提高端到端语音识别

采用数据增强和 TTS 技术，对 ASR 的训练数据进行扩充，并通过集成语言模型，在 LibriSpeech 数据上建立 end-to-end 模型，相对于半监督技术的效果更好。

May, 2020

面向低资源语言的数据高效语音合成无监督预训练

本文提出了一种基于无监督预训练的神经文本朗读生成模型，通过学习 Warped Mel-Spectrogram 的重构来优化时序关系，进一步提高数据利用效率，在低资源语言情境下实现了显著的性能提升。

Mar, 2023

自监督语音表示域适应微调的自动数据增强

本篇论文提出一种用于有声学领域差异的监督领域自适应方法，通过数据增强来减小源域和目标域的差异，并在初步微调阶段使用，证明了该方法的有效性。

Jun, 2023

低资源翻译的广义数据增强

本论文提出了一种在低资源机器翻译中进行数据增强的通用框架，该框架不仅使用目标端单语数据，还通过相关高资源语言进行桥接，通过在两个步骤中使用词典和修改无监督机器翻译框架，将高资源数据转换为低资源语言，实验证明该方法在极低的资源条件下，与受监督背景转换基线相比，可将翻译质量提高 1.5 到 8 个 BLEU 点。

Jun, 2019

分析影响基于自监督预训练表示在语音识别中的有效性因素

本文研究了在低资源环境下建立自动语音识别（ASR）系统的方法，发现自我监督学习预训练数据的相似性和数量对系统性能有显著影响，希望为语音领域改进 SSL-based 预训练模型的泛化性能提供指导。

Mar, 2022

利用声学伪标记预测正向迁移，以改进低资源语音识别

通过引入相似、高资源语言的数据，可以提高低资源语言的自动语音识别性能，并且通过计算基于诱导声学单元的序列分布的声学令牌分布相似度 (ATDS)，能够准确预测目标语言的 ASR 性能。

Feb, 2024