伪标签优于人工标注

Mar, 2022

Pseudo Label Is Better Than Human Label

Dongseong Hwang, Khe Chai Sim, Zhouyuan Huo, Trevor Strohman

TL;DR本文介绍了使用自监督学习和半监督学习技术训练强力教师模型来产生高质量伪标签的方法，进而用这些标签来训练语音识别模型，取得了较好的结果。

Abstract

State-of-the-art automatic speech recognition (ASR) systems are trained with tens of thousands of hours of labeled speech data. Human transcription is expensive and time consuming. Factors such as the quality and consistency of the transcription can greatly affect the performance of th

automatic speech recognition self-supervised learning semi-supervised learning pseudo labels word error rate

发现论文，激发创造

利用端到端自主训练的半监督自动语音识别

本文提出了一种基于端到端系统的自学习半监督自动语音识别方法，通过对无监督数据的伪标记迭代地增强有标记的数据，从而提高系统性能，实现数据增强效果，获得了 14.4% 的相对识别错误率改进。

Jan, 2020

端到端语音识别的自训练

本文探讨了自我训练在端到端语音识别中的应用，并展示给出了使用伪标签训练深度学习模型的方法，经过实验证明了该方法可以大幅提高基准模型的准确率，通过使用语音和语言模型生成伪标签和一些序列到序列模型的过滤机制，并采用新颖的集成方法提高伪标签的多样性，实验结果表明，在噪声语音环境下，使用自我训练的集成模型可以相对于只使用 100 小时标记数据的基准模型，使字错率（WER）提高了 33.9％；在清晰语音环境下，自我训练可以弥补基准模型和理想模型之间相对提高了至少 93.8％的差距。

Sep, 2019

ASR 的对比半监督学习

本文提出了一种名为对比半监督学习（Contrastive Semi-supervised Learning, CSL）的方法，通过挑选正负样本来替代直接预测教师生成的伪标签，并将其应用于翻译公共社交媒体视频的挑战任务中，从而比标准的交叉熵伪标签（CE-PL）减少了 8% 的 WER。

Mar, 2021

联合语音转录和翻译：使用 Out-of-Distribution 数据进行伪标签

本文研究使用自训练和伪标签技术，通过数据增强和过滤等手段，在语音识别中克服领域不匹配问题，从而提高了 0.6% 的音字误率和 2.2 个 BLEU 值百分点。

Dec, 2022

从一开始进行持续的伪标签化

本文提出了动态控制自训练过程中伪标签（PL）进化的方法，该方法避免了在低资源设置下过拟合到有标记的数据集。通过在线更改 PL 来控制 PL 缓存的会员资格和改善泛化能力。在预测分布中采样可进一步稳定训练，这两种技术使我们的自训练模型与之前的工作不相上下。

Oct, 2022

跨语言伪标记的无监督自动语音识别

研究表明，在没有成对的语音和文本的情况下，可以使用其他语言的字符级声学模型引导新语言的无监督自动语音识别系统，方法基于两个主要组成部分：使用其他语言 AM 生成目标语言的伪标签并用目标语言模型加以约束。

May, 2023

跨语言知识转移和迭代伪标注没有包括专有术语或不必要的解释适用于使用转录器的低资源语音识别

该研究旨在通过跨语言知识转移和迭代伪标注的方法来提高语音识别系统对低资源语言的准确性，结果表明，使用这两种技术，可将错误率降低 35%。

May, 2023

滤波和进化：半监督自动语音识别的渐进式伪标签精炼

本文研究使用伪标签微调自监督预训练模型的方法，提出通过平均概率分数过滤低质量的伪标签，挑选高可信性训练数据，迭代更新模型纠正不可靠的伪标签并去除噪声标签的策略，以提高语音识别性能。实验结果表明，该方法在 LibriSpeech 上具有良好表现。

Oct, 2022

自我训练的端到端语音翻译

本文主要探讨了在端到端语音翻译中数据稀缺的问题，并提出了一种利用级联和端到端语音翻译模型生成伪标签的方法，在 MuST-C 英法和英德数据集上达到了领先水平，同时也比仅对编码器进行语音识别任务的预训练方法更加有效。最后，通过直接使用端到端模型生成伪标签的自我训练方法证明了其有效性。

Jun, 2020

端到端自动语音识别：从受监督学习到半监督学习与现代架构

本文研究了 ResNet、时深分离卷积神经网络和变压器等半监督训练方法，在标准数据集 LibriSpeech 上，通过伪标签来利用来自 LibriVox 的额外未标记数据。研究结果表明，半监督训练可以改善所有架构和损失函数的模型，并在它们之间缩小性能差距，在标准监督学习设置下，获得了端到端声学模型的最新技术水平，并且半监督训练取得了新的绝对技术水平。此外，文章研究了利用不同数量的未标记音频的效果，并提出了几种评估未标记音频特性的方法，证明使用更多的音频进行训练能够减少对外部语言模型的依赖。

Nov, 2019