重新审视语音到文本生成的插值增强
本文介绍了一种新的数据增强技术,用于文本到语音的任务,能够生成新的(文本,音频)训练样本,而无需额外的数据。该方法可增加训练期间可用的文本条件的多样性,有助于减少过拟合,特别是在低资源环境下。我们将文本和音频段进行替换以确保语法正确性,并采取额外措施确保合成的语音不含有由于组合不一致的音频样本而导致的伪影。感知评估结果表明,我们的方法改善了许多数据集、说话人和 TTS 体系结构的语音质量,并能大大提高基于注意力的 TTS 模型的鲁棒性。
Feb, 2022
本文讨论了直接语音到语音翻译模型面临的数据稀缺性问题,探索了自监督预训练和数据增强技术来解决此问题,实验表明自监督预训练可以提高模型性能,结合数据增强技术可以进一步提高模型性能。
Apr, 2022
通过应用声学效果生成大量合成数据,利用现有的大量不同语言的未标记文本,提出了一种有效的方法来利用大量的语音到语音翻译数据,改进翻译质量,在西班牙语 - 英语和俄语 - 英语翻译中提高了 2 个 BLEU,尤其是在极低资源情况下表现显着。
Oct, 2022
本文旨在通过多种方法利用无监督和弱监督的语音和文本数据来提高基于 Translatotron 2 的直接语音到语音翻译系统的性能,实现在 21 种语言对上 BLEU 值提高 13.6(相对增长 113%),特别是对于低资源语言的提高更为显著(相对增长 398%)
Mar, 2022
本文介绍了一种基于 Transformer 神经网络的直接语音翻译技术,利用伪标签和外部数据来提升翻译效果,并在 Fisher 英西测试数据上创造了最好的翻译结果
May, 2022
本文探讨使用预训练神经网络和传统文本增强方法来进行自动语音识别数据的文本增强,并利用文本转语音系统将生成的合成文本转换为合成语音并添加到自动语音识别训练数据中,实验结果表明使用现代神经方法的文本增强是提高自动语音识别系统准确性的可行工具
May, 2023
采用数据增强和 TTS 技术,对 ASR 的训练数据进行扩充,并通过集成语言模型,在 LibriSpeech 数据上建立 end-to-end 模型,相对于半监督技术的效果更好。
May, 2020
通过分析不同合成目标语音对直接语音翻译模型的影响,本文提出了一个多任务框架,通过同时优化不同 TTS 系统的多个目标来提高 S2ST 表现,在 Fisher 西班牙语 - 英语数据集上实现了 2.8 BLEU 的一致改善效果。
Apr, 2023
本文探讨了使用 ASR 模型和 NLU 文本资源作为初始化及数据增广的方法,用以训练一个端到端的语音 - to - 意图系统,以减少数据稀疏问题。在实验中,作者通过改进后的 CTC-S2I 系统,使其与传统的级联式 SLU 系统具有相当的匹配性能。
Oct, 2020