使用无监督预训练改进基于 Transformer 的语音识别

Oct, 2019

使用无监督预训练改进基于 Transformer 的语音识别

Improving Transformer-based Speech Recognition Using Unsupervised Pre-training

Dongwei Jiang, Xiaoning Lei, Wubo Li, Ne Luo, Yuxuan Hu...

TL;DR提出一种称为 Masked Predictive Coding 的无监督预训练方法，可用于 Transformer-based 模型的无监督预训练，其应用于 HKUST 的实验表明，使用相同的训练数据，我们可以实现 CER 为 23.3%，超过最佳的端到端模型 0.2% 的绝对 CER。使用更多的预训练数据，我们可以进一步将 CER 降至 21.0％，相对 CER 基线降低 11.8%。

Abstract

speech recognition technologies are gaining enormous popularity in various industrial applications. However, building a good speech recognition system usually requires large amounts of →

speech recognition transcribed data unsupervised pre-training transformer based model cer reduction

发现论文，激发创造

Transformer 基于语音识别的无监督预训练的进一步研究

本文通过进一步研究 Masked Predictive Coding 的三个重要方面：预训练数据的发言风格，对流式模型的扩展和如何更好地将预训练阶段的知识转移，实验证明，在下游识别任务中，预训练数据与匹配的发言风格更有用，使用 APC 和 MPC 的统一培训目标在 HKUST 上训练的流式模型上提供了 8.46％的相对错误率降低，目标数据适应和逐层判别式培训的组合有助于 MPC 的知识转移，在 AISHELL 上相对基线实现了 3.99％的错误率降低。

May, 2020

通过掩码重构无监督预训练双向语音编码器

提出了一种使用掩蔽重构损失进行预训练语音表示的方法，实现了双向预训练编码器网络在典型的双向语音识别模型中的直接使用。该方法在 LibriSpeech 和 Wall Street Journal 语料库上的实验表明，预训练、掩蔽段、领域适应都能提高语音识别性能。

Jan, 2020

使用未经配对的语音数据为端到端 ASR 模型预训练 Transformer 解码器

本文在多任务学习框架下，提出了一种使用新型无配对语音数据的预训练技术 Speech2C，通过声学单元 (pseudo codes) 派生自离线聚类模型，提出两个预训练任务来训练 “编码器 - 解码器” 网络，其一是像 HuBERT 模型一样通过掩蔽语言模型在编码器输出中预测 pseudo codes，其二则是让解码器自回归地重构 pseudo codes。此方法能够在 LibriSpeech 语料库上相对于没有解码器预训练的方法将字词错误率 (WER) 降低 19.2%，并且在 10h 和 100h 的微调子集上显著优于最先进的 wav2vec 2.0 和 HuBERT。

Mar, 2022

基于监督引导的编码本，用于语音预训练中的遮蔽预测

本论文提出了两种监督引导的码本生成方法，分别是使用混合 ASR 系统解码并生成音素级别对齐（命名为 PBERT）或者使用从端到端 CTC 模型中提取的受监督语音特征进行聚类（命名为 CTC 聚类），以提高自动语音识别性能和预训练效率。实验结果表明，我们的方法在各种 SSL 和自训练基线中具有显著的优越性，最高 WER 相对降低了 17.0％。我们的预训练模型在非 ASR 语音任务中也表现出良好的可迁移性。

Jun, 2022

基于预训练语音模型的低资源语音识别改进：继续预训练与半监督训练

本文通过在多种低资源语言的未标注同语言音频数据上使用 XLSR-53 预训练模型进行持续预训练来改进自动语音识别的性能，结果表明持续预训练在单词错误率方面与半监督训练的效果相当且更加高效。

Jul, 2022

面向低资源语言的数据高效语音合成无监督预训练

本文提出了一种基于无监督预训练的神经文本朗读生成模型，通过学习 Warped Mel-Spectrogram 的重构来优化时序关系，进一步提高数据利用效率，在低资源语言情境下实现了显著的性能提升。

Mar, 2023

定位预测作为一种有效的预训练策略

本文提出了一种新颖的、简单的、基于位置预测的 Transformer 自监督预训练策略，可以提高 NLP、语音和视觉领域的性能，并使不使用位置嵌入的 Transformers 超越使用完整位置信息的 Transformers。

Jul, 2022

自监督预训练在语音识别中的有效性

本文比较了自监督表示学习算法 - 无量化学习和显式量化学习，发现使用显式量化的自监督学习算法以较高的准确性建立了数据词汇表，并在随后的 BERT 训练中学习了有效的表示方法，从而实现了训练量极小的语音识别系统。

Nov, 2019

TERA：基于自监督学习的 Transformer 编码器音频表示学习

介绍了一种称为 TERA 的自监督语音预训练方法，利用一种通过沿着三个正交轴对变换来预训练 Transformer Encoders 的方法，在多个下游任务中实现了出色的性能。

Jul, 2020

无监督预训练在语言间具备良好的迁移能力

本篇研究调查了无监督预训练是否能够跨语言传输，以便自动语音识别系统（ASR）实现跨语言和多语言。研究表明，使用略加修改的对比性预测编码（CPC）预训练方式，能够提取和其他语言效果相当或甚至优于监督预训练的特征，证明了无监督方法在语言资源稀缺的情况下具有潜力。

Feb, 2020