重新审视语音到文本生成的插值增强

ACLJun, 2024

重新审视语音到文本生成的插值增强

Revisiting Interpolation Augmentation for Speech-to-Text Generation

Chen Xu, Jie Wang, Xiaoqian Liu, Qianqian Dong, Chunliang Zhang...

TL;DR通过插值增强技术在语音识别系统中构建虚拟训练样本能显著提升性能，为资源有限环境下更强健的语音识别系统提供了有希望的途径。

Abstract

speech-to-text (S2T) generation systems frequently face challenges in low-resource scenarios, primarily due to the lack of extensive labeled datasets. One emerging solution is constructing →

speech-to-text low-resource scenarios virtual training samples interpolation augmentation robust s2t systems

发现论文，激发创造

低资源表达文本朗读的分布增强

本文介绍了一种新的数据增强技术，用于文本到语音的任务，能够生成新的（文本，音频）训练样本，而无需额外的数据。该方法可增加训练期间可用的文本条件的多样性，有助于减少过拟合，特别是在低资源环境下。我们将文本和音频段进行替换以确保语法正确性，并采取额外措施确保合成的语音不含有由于组合不一致的音频样本而导致的伪影。感知评估结果表明，我们的方法改善了许多数据集、说话人和 TTS 体系结构的语音质量，并能大大提高基于注意力的 TTS 模型的鲁棒性。

Feb, 2022

使用自监督预训练和数据增强增强的直接语音翻译

本文讨论了直接语音到语音翻译模型面临的数据稀缺性问题，探索了自监督预训练和数据增强技术来解决此问题，实验表明自监督预训练可以提高模型性能，结合数据增强技术可以进一步提高模型性能。

Apr, 2022

通过无标注文本改进语音到语音翻译

通过应用声学效果生成大量合成数据，利用现有的大量不同语言的未标记文本，提出了一种有效的方法来利用大量的语音到语音翻译数据，改进翻译质量，在西班牙语 - 英语和俄语 - 英语翻译中提高了 2 个 BLEU，尤其是在极低资源情况下表现显着。

Oct, 2022

利用无监督和弱监督数据，提高直接语音翻译的准确性

本文旨在通过多种方法利用无监督和弱监督的语音和文本数据来提高基于 Translatotron 2 的直接语音到语音翻译系统的性能，实现在 21 种语言对上 BLEU 值提高 13.6（相对增长 113%），特别是对于低资源语言的提高更为显著（相对增长 398%）

Mar, 2022

使用即时数据增强技术改进序列到序列语音识别训练

本文研究了三种数据增强方法在两种序列到序列模型中对性能的影响，发现通过数据增强可以有效缓解过拟合问题并提高自动语音识别的性能。

Oct, 2019

利用伪标记数据提高直接语音翻译质量

本文介绍了一种基于 Transformer 神经网络的直接语音翻译技术，利用伪标签和外部数据来提升翻译效果，并在 Fisher 英西测试数据上创造了最好的翻译结果

May, 2022

使用语音合成进行语音识别数据增强的文本生成

本文探讨使用预训练神经网络和传统文本增强方法来进行自动语音识别数据的文本增强，并利用文本转语音系统将生成的合成文本转换为合成语音并添加到自动语音识别训练数据中，实验结果表明使用现代神经方法的文本增强是提高自动语音识别系统准确性的可行工具

May, 2023

无需更多数据：通过文本到语音数据增强来提高端到端语音识别

采用数据增强和 TTS 技术，对 ASR 的训练数据进行扩充，并通过集成语言模型，在 LibriSpeech 数据上建立 end-to-end 模型，相对于半监督技术的效果更好。

May, 2020

利用多个 TTS 目标提升语音翻译

通过分析不同合成目标语音对直接语音翻译模型的影响，本文提出了一个多任务框架，通过同时优化不同 TTS 系统的多个目标来提高 S2ST 表现，在 Fisher 西班牙语 - 英语数据集上实现了 2.8 BLEU 的一致改善效果。

Apr, 2023

利用非成对文本数据训练端到端语音意图系统

本文探讨了使用 ASR 模型和 NLU 文本资源作为初始化及数据增广的方法，用以训练一个端到端的语音 - to - 意图系统，以减少数据稀疏问题。在实验中，作者通过改进后的 CTC-S2I 系统，使其与传统的级联式 SLU 系统具有相当的匹配性能。

Oct, 2020