利用端到端自主训练的半监督自动语音识别

Jan, 2020

利用端到端自主训练的半监督自动语音识别

Semi-supervised ASR by End-to-end Self-training

Yang Chen, Weiran Wang, Chao Wang

TL;DR本文提出了一种基于端到端系统的自学习半监督自动语音识别方法，通过对无监督数据的伪标记迭代地增强有标记的数据，从而提高系统性能，实现数据增强效果，获得了 14.4% 的相对识别错误率改进。

Abstract

While deep learning based end-to-end automatic speech recognition (ASR) systems have greatly simplified modeling pipelines, they suffer from the data sparsity issue. In this work, we propose a self-training metho

deep learning automatic speech recognition semi-supervised learning data augmentation ctc system

发现论文，激发创造

端到端自动语音识别：从受监督学习到半监督学习与现代架构

本文研究了 ResNet、时深分离卷积神经网络和变压器等半监督训练方法，在标准数据集 LibriSpeech 上，通过伪标签来利用来自 LibriVox 的额外未标记数据。研究结果表明，半监督训练可以改善所有架构和损失函数的模型，并在它们之间缩小性能差距，在标准监督学习设置下，获得了端到端声学模型的最新技术水平，并且半监督训练取得了新的绝对技术水平。此外，文章研究了利用不同数量的未标记音频的效果，并提出了几种评估未标记音频特性的方法，证明使用更多的音频进行训练能够减少对外部语言模型的依赖。

Nov, 2019

使用非成对语音和文本的半监督序列到序列自动语音识别

本文提出了一种新的半监督训练方法，该方法结合了端到端的不可区分的 ASR->TTS 损失和 TTS->ASR 损失，利用未配对的语音和文本数据，相较于其他相关技术在 WSJ 和 Librispeech 语料库上的 WER 性能更好。

Apr, 2019

端到端语音识别的自训练

本文探讨了自我训练在端到端语音识别中的应用，并展示给出了使用伪标签训练深度学习模型的方法，经过实验证明了该方法可以大幅提高基准模型的准确率，通过使用语音和语言模型生成伪标签和一些序列到序列模型的过滤机制，并采用新颖的集成方法提高伪标签的多样性，实验结果表明，在噪声语音环境下，使用自我训练的集成模型可以相对于只使用 100 小时标记数据的基准模型，使字错率（WER）提高了 33.9％；在清晰语音环境下，自我训练可以弥补基准模型和理想模型之间相对提高了至少 93.8％的差距。

Sep, 2019

伪标签优于人工标注

本文介绍了使用自监督学习和半监督学习技术训练强力教师模型来产生高质量伪标签的方法，进而用这些标签来训练语音识别模型，取得了较好的结果。

Mar, 2022

用于德语端到端语音识别的大语料 CTC 分割

本研究结合之前未标注的语音数据通过采用 CTC 预训练的两阶段方法生成训练数据，使用 CTC 和 attention Transformer 模型对德语语音识别进行训练，实现了 12.8％的识别错误率，超过了传统混合 DNN / HMM ASR 的 14.4％的基础水平。

Jul, 2020

自监督语音和语言模型预训练的半监督口语理解

本文提出了一种基于半监督学习的、使用预先训练的端到端自动语音识别（E2E ASR）和自监督语言模型（如 BERT）进行微调的通用语义理解框架，该框架可从转录或未转录的语音中直接学习语义来解决一些 SLU 模型中的问题，如 ASR 错误、意图预测而不是词槽预测以及在大量训练数据不足的情况下训练。实验结果表明，该框架对于语义理解可以与使用 Oracle 文本作为输入的模型相媲美，具有良好的环境噪声鲁棒性，并且在训练集有限的情况下也能达到较好的效果。

Oct, 2020

ASR 的对比半监督学习

本文提出了一种名为对比半监督学习（Contrastive Semi-supervised Learning, CSL）的方法，通过挑选正负样本来替代直接预测教师生成的伪标签，并将其应用于翻译公共社交媒体视频的挑战任务中，从而比标准的交叉熵伪标签（CE-PL）减少了 8% 的 WER。

Mar, 2021

几乎无监督的文本转语音和自动语音识别

本文提出了一种基于 Transformer 模型的几乎无监督学习方法，结合 TTS 和 ASR 的双重特性，通过少量的配对数据和额外的未配对数据，实现了对语音和文本领域的语言建模，并在 LJSpeech 数据集上达到了 99.84% 的可懂单词率和 2.68 MOS 的 TTS 表现，以及 11.7% 的 ASR 错误率。

May, 2019

联合掩码 CPC 和 CTC 训练用于自动语音识别

这篇论文介绍了一种利用自监督学习方法，通过单阶段训练自动语音识别模型，利用标记数据和非标记数据来训练模型，实现了对下游任务性能的直接优化，并在 Librispeech 100-hour 数据集上实现了类似于 wav2vec ~2.0 的词错误率，最后提出解决对比任务是计算 CTC 损失的正则化的假设。

Oct, 2020

多假设 RNN-T 损失函数用于神经传输器的无监督微调和自学习

本文提出了一种新的方法，利用未标记的语音数据对递归神经网络转录器端对端自动语音识别系统进行无监督的微调和自我训练，其中包括引入多重假设 RNN-T 损失以缓解 ASR 错误对无标记数据的影响，并在 Librispeech，Wall Street Journal（WSJ），Aurora-4 和 CHiME-4 数据集上进行实验，显著提高了系统性能。

Jul, 2022