动量伪标记在半监督语音识别中的应用

Jun, 2021

动量伪标记在半监督语音识别中的应用

Momentum Pseudo-Labeling for Semi-Supervised Speech Recognition

Yosuke Higuchi, Niko Moritz, Jonathan Le Roux, Takaaki Hori

TL;DR本研究提出一种名为动量伪标签的半监督语音识别方法，采用了一种在线模型与离线模型之间交互学习的策略，取得了比基准模型更好的效果。

Abstract

pseudo-labeling (PL) has been shown to be effective in semi-supervised automatic speech recognition (ASR), where a base model is self-trained with pseudo-labels generated from unlabeled data. While PL can be furt

pseudo-labeling semi-supervised learning automatic speech recognition momentum pseudo-labeling end-to-end models

发现论文，激发创造

使用 Conformer 和初始化策略推进 Momentum Pseudo-Labeling

本研究通过引入 Conformer 结构和迭代伪标签与语言模型相结合，提高了 MPL 性能，对各种半监督设置表现出鲁棒性，并且在质量和效果方面优于其他基于伪标签的方法。

Oct, 2021

InterMPL: 中间层 CTC 损失的动量伪标签

本文提出了一种利用中间监督的伪标签方法 ——InterMPL，可以应用于半监督学习的自动语音识别系统中，通过引入辅助损失优化伪标签，具有在不需要标签的情况下提高 ASR 性能的能力。实验结果证实，该方法比 MPL 等方法更有效，可使 ASR 模型提高至 12.1% 的绝对性能增益。

Nov, 2022

从一开始进行持续的伪标签化

本文提出了动态控制自训练过程中伪标签（PL）进化的方法，该方法避免了在低资源设置下过拟合到有标记的数据集。通过在线更改 PL 来控制 PL 缓存的会员资格和改善泛化能力。在预测分布中采样可进一步稳定训练，这两种技术使我们的自训练模型与之前的工作不相上下。

Oct, 2022

迭代式拟标记在语音识别中的应用

本文研究了伪标记技术在半监督自动语音识别中的应用，提出了一种名为 Iterative Pseudo-Labeling（IPL）的算法，通过迭代伪标记技术并利用无标注数据，可以在标准和低资源环境下实现最佳单词错误率，此外，研究表明对不同文本语料库进行训练的语言模型对于提高 ASR 的效果非常有效，最后我们公开了一个新的大规模行业内文本语料库以促进低资源半监督 ASR 的研究。

May, 2020

多任务伪标签学习用于非侵入式语音质量评估模型

该研究介绍了多任务伪标签（MPL）学习在非侵入性语音质量评估模型中的应用，通过两个阶段获得伪标签分数和进行多任务学习，实验证明了 MPL 相较于从零开始训练模型和使用知识传递机制的优势，并验证了 Huber 损失函数在提高 MTQ-Net 预测模型的能力方面的益处，最终 MTQ-Net 采用 MPL 方法展示了较其他基于 SSL 的语音评估模型更高的整体预测能力。

Aug, 2023

跨模型伪标记用于半监督动作识别

本研究提出了一种称为交叉模型伪标记的半监督行为识别方法，利用两个不同结构偏差的模型互相预测伪标签，达到更好的识别效果。

Dec, 2021

关于伪标签的辩护：一种基于不确定性的半监督学习伪标签选择框架

本文提出一种基于不确定性的假标签选择框架，通过减少训练过程中的噪音来提高假标签的准确性，并可以生成负假标签用于多标签分类和负学习，相比于最近的半监督学习方法在 CIFAR-10、CIFAR-100、UCF-101 和 Pascal VOC 数据集上获得了很好的性能。

Jan, 2021

基于 Wav2vec2 动量伪标记的发音不准检测方法改进，用于口音和可懂度评估

本文介绍了使用 Wav2vec 2.0 模型进行自监督学习，在当前领先的发音错误检测和诊断 (MDD) 系统中使用自动伪标签方法，可以用于增强 L2 语音，提高模型的鲁棒性和准确性。

Mar, 2022

图数据中嘈杂伪标签的深入洞察

给出伪标记策略对图学习模型的影响的深入见解，通过错误分析证明伪标记错误受伪标记阈值的置信度和多视图预测的一致性的限制，并在收敛性属性上理论上说明的基础上，提出了一种谨慎的伪标签方法，通过对置信度最高且多视图一致的样本进行伪标签，从而改进了图学习过程，在链接预测和节点分类任务上优于其他伪标记策略。

Oct, 2023

SlimIPL：无需语言模型的迭代伪标记

提出了一种无需语言模型的增强迭代伪标记算法（Language-Model-Free IPL，slimIPL），该算法适用于低资源设置和以 CTC 为基础的模型，其中包括一个动态缓存来降低与超参数相关的假标签的敏感性。通过只需要 10 小时的标记音频，这种算法在自我监督方法中具有竞争力，并且在无需语言模型的情况下成为有标记音频的最新技术。

Oct, 2020