利用端到端自主训练的半监督自动语音识别
本文研究了 ResNet、时深分离卷积神经网络和变压器等半监督训练方法,在标准数据集 LibriSpeech 上,通过伪标签来利用来自 LibriVox 的额外未标记数据。研究结果表明,半监督训练可以改善所有架构和损失函数的模型,并在它们之间缩小性能差距,在标准监督学习设置下,获得了端到端声学模型的最新技术水平,并且半监督训练取得了新的绝对技术水平。此外,文章研究了利用不同数量的未标记音频的效果,并提出了几种评估未标记音频特性的方法,证明使用更多的音频进行训练能够减少对外部语言模型的依赖。
Nov, 2019
本文提出了一种新的半监督训练方法,该方法结合了端到端的不可区分的 ASR->TTS 损失和 TTS->ASR 损失,利用未配对的语音和文本数据,相较于其他相关技术在 WSJ 和 Librispeech 语料库上的 WER 性能更好。
Apr, 2019
本文探讨了自我训练在端到端语音识别中的应用,并展示给出了使用伪标签训练深度学习模型的方法,经过实验证明了该方法可以大幅提高基准模型的准确率,通过使用语音和语言模型生成伪标签和一些序列到序列模型的过滤机制,并采用新颖的集成方法提高伪标签的多样性,实验结果表明,在噪声语音环境下,使用自我训练的集成模型可以相对于只使用 100 小时标记数据的基准模型,使字错率(WER)提高了 33.9%;在清晰语音环境下,自我训练可以弥补基准模型和理想模型之间相对提高了至少 93.8%的差距。
Sep, 2019
本研究结合之前未标注的语音数据通过采用 CTC 预训练的两阶段方法生成训练数据,使用 CTC 和 attention Transformer 模型对德语语音识别进行训练,实现了 12.8%的识别错误率,超过了传统混合 DNN / HMM ASR 的 14.4%的基础水平。
Jul, 2020
本文提出了一种基于半监督学习的、使用预先训练的端到端自动语音识别(E2E ASR)和自监督语言模型(如 BERT)进行微调的通用语义理解框架,该框架可从转录或未转录的语音中直接学习语义来解决一些 SLU 模型中的问题,如 ASR 错误、意图预测而不是词槽预测以及在大量训练数据不足的情况下训练。实验结果表明,该框架对于语义理解可以与使用 Oracle 文本作为输入的模型相媲美,具有良好的环境噪声鲁棒性,并且在训练集有限的情况下也能达到较好的效果。
Oct, 2020
本文提出了一种名为对比半监督学习(Contrastive Semi-supervised Learning, CSL)的方法,通过挑选正负样本来替代直接预测教师生成的伪标签,并将其应用于翻译公共社交媒体视频的挑战任务中,从而比标准的交叉熵伪标签(CE-PL)减少了 8% 的 WER。
Mar, 2021
本文提出了一种基于 Transformer 模型的几乎无监督学习方法,结合 TTS 和 ASR 的双重特性,通过少量的配对数据和额外的未配对数据,实现了对语音和文本领域的语言建模,并在 LJSpeech 数据集上达到了 99.84% 的可懂单词率和 2.68 MOS 的 TTS 表现,以及 11.7% 的 ASR 错误率。
May, 2019
这篇论文介绍了一种利用自监督学习方法,通过单阶段训练自动语音识别模型,利用标记数据和非标记数据来训练模型,实现了对下游任务性能的直接优化,并在 Librispeech 100-hour 数据集上实现了类似于 wav2vec ~2.0 的词错误率,最后提出解决对比任务是计算 CTC 损失的正则化的假设。
Oct, 2020
本文提出了一种新的方法,利用未标记的语音数据对递归神经网络转录器端对端自动语音识别系统进行无监督的微调和自我训练,其中包括引入多重假设 RNN-T 损失以缓解 ASR 错误对无标记数据的影响,并在 Librispeech,Wall Street Journal(WSJ),Aurora-4 和 CHiME-4 数据集上进行实验,显著提高了系统性能。
Jul, 2022