一种利用非配对语音和文本进行低资源自动语音识别的补充联合训练方法

Apr, 2022

一种利用非配对语音和文本进行低资源自动语音识别的补充联合训练方法

A Complementary Joint Training Approach Using Unpaired Speech and Text for Low-Resource Automatic Speech Recognition

Ye-Qian Du, Jie Zhang, Qiu-Shi Zhu, Li-Rong Dai, Ming-Hui Wu...

TL;DR本篇论文介绍了如何利用未配对的语音和文本数据，通过生成相应的缺失部分进行模型训练，并提出了一种称为 CJT++ 的补充联合训练方法，包括伪标签的标签掩蔽和合成音频的梯度限制，以应对与真实数据的偏差。实验结果表明，相比于仅使用语音进行训练，所提出的基本 CJT 方法在干净 / 其他测试集上实现了显著的性能提升，CJT++ 重新训练进一步增强了性能，并在极低资源情况下特别优于相同模型大小和波束大小的 wav2vec2.0 模型。

Abstract

unpaired data has shown to be beneficial for low-resource automatic speech recognition~(ASR), which can be involved in the design of hybrid models with multi-task training or language model dependent pre-training. In this work, we leverage →

unpaired data automatic speech recognition sequence-to-sequence model complementary joint training pseudo-labels

发现论文，激发创造

使用非成对语音和文本的半监督序列到序列自动语音识别

本文提出了一种新的半监督训练方法，该方法结合了端到端的不可区分的 ASR->TTS 损失和 TTS->ASR 损失，利用未配对的语音和文本数据，相较于其他相关技术在 WSJ 和 Librispeech 语料库上的 WER 性能更好。

Apr, 2019

使用大型语言模型增强口语理解的文本

使用现有和新领域的非配对文本可以提高已有和新领域的口语语义解析的性能，同时，通过提示大型语言模型生成非配对文本，可以进一步提升性能。

Sep, 2023

几乎无监督的文本转语音和自动语音识别

本文提出了一种基于 Transformer 模型的几乎无监督学习方法，结合 TTS 和 ASR 的双重特性，通过少量的配对数据和额外的未配对数据，实现了对语音和文本领域的语言建模，并在 LJSpeech 数据集上达到了 99.84% 的可懂单词率和 2.68 MOS 的 TTS 表现，以及 11.7% 的 ASR 错误率。

May, 2019

SpeechLM: 用非配对文本数据增强的语音预训练

提出了一种跨模态的语音和语言模型，使用两种不同的离散标记器来处理语音和文本模态，取得了优异的成绩，尤其表现出色的是在 CoVoST-2 语音翻译任务上。

Sep, 2022

token2vec: 一个基于自监督联合预训练的框架，使用非配对语音和文本进行训练

本文提出了一种新型的基于离散语音表示的非配对语音和文本联合预训练框架，即 Token2Vec，通过模态不可知的 Transformer 编码器和令牌级掩码语言建模（tMLM）进行预训练，在非 ASR 任务上也表现出很好的可转移性，相对于各种仅语音预训练的基线，Token2Vec 的性能显著提高，最高相对 WER 降低了 17.7%。

Oct, 2022

流式语音识别的 Transformer 修正器的联合音频 / 文本训练

本研究提供了一种联合音频 / 文本训练方法，以降低配对音频 - 文本数据的代价，并减少了模型参数和延迟，同时在 Librispeech 数据库和内部数据库上显着提高了单词错误率的 Transformer Rescorer。

Oct, 2022

改进不需要对齐的联合语音文本表示

通过跨模态表示空间的概念，在文本提示的图像生成中取得了惊人的进展。本文提出，联合语音文本编码器通过忽略序列长度差异，能够实现一致的跨模态表示，并且通过一致性损失可以改善大参数的单语言和多语言系统中的词错误率。

Aug, 2023

Maestro-U: 利用联合语音 - 文本表示学习进行零监督语音 ASR

在这篇论文中，我们演示了利用匹配模态的联合语音和文本模型可以训练出一个巨大的多语言自动语音识别模型，即使对于某些语言没有使用受控制的语音作为训练数据。我们还展示了 Maestro-U 的表现，它可以使错误率降低 68.5％，并将 19 种语言的 CER 降到 15％以下。

Oct, 2022

跨语言伪标记的无监督自动语音识别

研究表明，在没有成对的语音和文本的情况下，可以使用其他语言的字符级声学模型引导新语言的无监督自动语音识别系统，方法基于两个主要组成部分：使用其他语言 AM 生成目标语言的伪标签并用目标语言模型加以约束。

May, 2023

无需语音识别的语音到文本翻译

本文探讨语音转文本翻译的问题，使用无监督术语发现技术将音频文件转化为伪文本，并使用其进行简单的词袋机翻译，面对跨讲话者无监督术语发现的难题，系统实现了低召回率的跨语音翻译。

Feb, 2017