使用整合的文本 - 梅尔频谱生成器进行端到端语音识别的纯文本领域自适应

Feb, 2023

使用整合的文本 - 梅尔频谱生成器进行端到端语音识别的纯文本领域自适应

Text-only domain adaptation for end-to-end ASR using integrated text-to-mel-spectrogram generator

Vladimir Bataev, Roman Korostik, Evgeny Shabalin, Vitaly Lavrukhin, Boris Ginsburg

TL;DR这篇论文提出了一个端到端的自动语音识别系统，可以使用带有转录的语音数据、纯文本数据或两者的混合数据进行训练。该系统通过使用文本数据可显著提高在不同领域的 ASR 模型的准确性，在扩展 ASR 模型中引入 TTS 块从而创建梅尔频谱图，该块包含了一个非自回归的文本生成模型以及 GAN 增强器来提高模型性能。

Abstract

We propose an end-to-end asr system that can be trained on transcribed speech data, text data, or a mixture of both. For text-only training, our extended ASR model uses an integrated auxiliary →

asr system text data spectrogram tts block gan enhancer

发现论文，激发创造

使用合成数据的端到端自适应语音识别系统的简单基线

本文提出了一种简单的基线技术，使用单个扬声器的 TTS 引擎将纯文本语料库转换为音频数据，并使用目标域中的并行数据对通用 ASR 模型的最终密集层进行微调，结果表明，单个发声者 TTS 数据与仅微调最终密集层的结合可合理提高单词错误率.

Jun, 2022

在转换器中使用统一的语音 - 文本表示进行仅限于文本的域自适应

本研究提出了一种方法 —— 学习统一的语音文本表示，在端到端的语音识别中实现快速适应，该方法可以使用文本语料库进行域自适应，同时还可以改善适应的效率，并与内部语言模型估计相结合，进一步提高性能。

Jun, 2023

训练和调整 RNN 转录自动语音识别模型的文本输入整合

本文提出了一种新的文本表示和训练框架，用于对端到端自动语音识别模型进行内部语言模型（LM）的有效适应，仅使用新域的文本数据。实验表明这种方法能够显著提高模型的准确性并适用于不同的数据集。

Feb, 2022

通过下采样声学表示进行端到端语音识别的纯文本领域自适应

本研究旨在通过引入一个连续的整合 - 发火 (CIF) 模块，从而实现将语音和文本这两种形式的信息映射到共享表示空间，以提高自动语音识别 (ASR) 在新领域中的性能。通过将一个具有一致语音标记长度的 CIF 模块与基于文本的 ASR 模型相结合，我们成功实现了统一的双模态表示学习，从而允许使用目标领域的纯文本数据进行域适应。实验结果表明了该方法在新领域数据上的有效性。

Sep, 2023

为注意力语音识别系统生成合成音频数据

本文介绍了一种利用自然语言生成的人工语音并结合于现有的自动语音识别系统中的方法，并证明仅需使用语音文本数据就可对 ASR 系统进行增强，相对于数据扩充的基线模型，本方法在 LibriSpeech-100h 上获得了高达 33% 的错误率降低并且相对于最新 ASR 基线模型在 LibriSpeech-960h 上也获得了高达 5% 的未识别词率降低。

Dec, 2019

利用大型语言模型进行零样本 ASR 领域自适应的语料合成

提出了一种新的自适应 ASR 模型到新目标领域的策略，其中使用大型语言模型生成目标领域文本语料库，并使用最先进的可控语音合成模型生成相应的语音，通过在上下文中进行指令微调以提高大型语言模型生成新领域文本语料库的效果，实验证明该方法在未知目标领域上能达到平均相对词错误率提高 28%，且源领域性能无降低。

Sep, 2023

几乎无监督的文本转语音和自动语音识别

本文提出了一种基于 Transformer 模型的几乎无监督学习方法，结合 TTS 和 ASR 的双重特性，通过少量的配对数据和额外的未配对数据，实现了对语音和文本领域的语言建模，并在 LJSpeech 数据集上达到了 99.84% 的可懂单词率和 2.68 MOS 的 TTS 表现，以及 11.7% 的 ASR 错误率。

May, 2019

使用统一的语音与文本编码器 - 解码器来改善 ASR

本研究利用外部文本数据提高自动语音识别的性能，探讨了一种方法，在共享解码器和编码器部分的集合中，联合训练自动语音识别和掩码语言模型。经实验验证，该方法在测试中取得了非常好的效果，耗时不增加。

Feb, 2022

利用文本数据增强语音转文本任务的通用多任务学习框架

本文提出了一种多任务学习框架，利用文本数据来提高自动语音识别和语音翻译的性能，其中包括基于注意力的序列到序列建模、去噪自动编码器、机器翻译等技术。在英语语音识别任务中，该方法相对于基线线下降了 10~15% 的词错误率，在 MuST-C 任务中有 3.6~9.2 BLEU 的提高。

Oct, 2020

FastSpeech: 快速、健壮、可控的文本到语音

本研究提出了一种基于 Transformer 模型、并行生成梅尔频谱的快速语音合成模型 FastSpeech，它在语音质量、稳定性、可控性和速度方面均具备相应优点。

May, 2019