联合语音转录和翻译：使用 Out-of-Distribution 数据进行伪标签

Dec, 2022

联合语音转录和翻译：使用 Out-of-Distribution 数据进行伪标签

Joint Speech Transcription and Translation: Pseudo-Labeling with Out-of-Distribution Data

Mozhdeh Gheini, Tatiana Likhomanenko, Matthias Sperber, Hendra Setiawan

TL;DR本文研究使用自训练和伪标签技术，通过数据增强和过滤等手段，在语音识别中克服领域不匹配问题，从而提高了 0.6% 的音字误率和 2.2 个 BLEU 值百分点。

Abstract

self-training has been shown to be helpful in addressing data scarcity for many domains, including vision, speech, and language. Specifically, self-training, or →

self-training pseudo-labeling speech recognition domain mismatch data augmentation

发现论文，激发创造

自我训练的端到端语音翻译

本文主要探讨了在端到端语音翻译中数据稀缺的问题，并提出了一种利用级联和端到端语音翻译模型生成伪标签的方法，在 MuST-C 英法和英德数据集上达到了领先水平，同时也比仅对编码器进行语音识别任务的预训练方法更加有效。最后，通过直接使用端到端模型生成伪标签的自我训练方法证明了其有效性。

Jun, 2020

简单有效的无监督语音翻译

本文利用无监督语音识别、机器翻译与语音合成技术，探讨实现无标注数据建立语音翻译系统的方法，通过管道方法或生成伪标签，对端到端语音翻译模型进行训练。同时，提出一种无监督域自适应方法，能够提供一定的性能提升。实验结果表明，本文提出的无监督语音翻译方法，在 Libri-Trans 基准测试的 BLEU 分数上超过以前报告的无监督效果的 3.2 个点，在 CoVoST2 数据集上，本文的最佳系统相对于最佳监督学习的端到端模型（无预训练），在五个语种（X-En）上平均提高 5.0 个 BLEU 分数。在 MuST-C 和 CVSS 基准测试上，本文也取得了有竞争力的结果。

Oct, 2022

伪标签优于人工标注

本文介绍了使用自监督学习和半监督学习技术训练强力教师模型来产生高质量伪标签的方法，进而用这些标签来训练语音识别模型，取得了较好的结果。

Mar, 2022

使用自监督预训练和数据增强增强的直接语音翻译

本文讨论了直接语音到语音翻译模型面临的数据稀缺性问题，探索了自监督预训练和数据增强技术来解决此问题，实验表明自监督预训练可以提高模型性能，结合数据增强技术可以进一步提高模型性能。

Apr, 2022

端到端语音识别的自训练

本文探讨了自我训练在端到端语音识别中的应用，并展示给出了使用伪标签训练深度学习模型的方法，经过实验证明了该方法可以大幅提高基准模型的准确率，通过使用语音和语言模型生成伪标签和一些序列到序列模型的过滤机制，并采用新颖的集成方法提高伪标签的多样性，实验结果表明，在噪声语音环境下，使用自我训练的集成模型可以相对于只使用 100 小时标记数据的基准模型，使字错率（WER）提高了 33.9％；在清晰语音环境下，自我训练可以弥补基准模型和理想模型之间相对提高了至少 93.8％的差距。

Sep, 2019

基于伪标签监督的视频查询摘要

本文介绍了一种利用自我监督和伪标记来预先训练深度模型，并提出了一种含义增强器和相互关注的方法来生成上下文感知的查询表示，以改进视频摘要任务的性能，并在常见的视频摘要 benchmark 中获得了最先进的性能。

Jul, 2023

神经序列生成的自训练再探

本文提出了一种基于自训练的半监督学习方法，通过加入 label 缺失的无标签数据和模型预测，模型的性能和精确度可以得到有效的提升，而 dropout 和注入噪声则是关键操作。

Sep, 2019

伪标记中选择性的无监督多源自由领域自适应的优势

该研究提出了一种利用信息论界限和特征对齐技术，将目标数据划分为伪标记子集和无标记子集以实现平衡的无监督域自适应方法，取得了比现有方法更好的性能表现。

Feb, 2022

半监督自动语音识别的替代伪标注方法

通过使用伪标签技术的半监督学习，结合泛化的 CTC 损失函数、对抗性 CTC 损失函数和自动阈值方法，本研究提出了一种名为 “替代伪标签” 的新框架，以应对噪声伪标签带来的问题。

Aug, 2023

滤波和进化：半监督自动语音识别的渐进式伪标签精炼

本文研究使用伪标签微调自监督预训练模型的方法，提出通过平均概率分数过滤低质量的伪标签，挑选高可信性训练数据，迭代更新模型纠正不可靠的伪标签并去除噪声标签的策略，以提高语音识别性能。实验结果表明，该方法在 LibriSpeech 上具有良好表现。

Oct, 2022