提高噪声学生训练用于自动语音识别
通过使用更大的学生模型和在学习过程中添加噪声,该文提出了一种名为 'Noisy student training' 的半监督学习方法,在大规模高质量图像分类任务 ImageNet 上取得了 88.4% 的准确率,并在鲁棒性测试集上表现优异。
Nov, 2019
该研究采用半监督学习、自动语音识别和噪声模型训练等技术提高 LibriSpeech 数据集的识别准确率,最终实现了 1.4%/2.6% 的识别误差,相比当前最先进水平 1.7%/ 3.3%,表现出显著的提升。
Oct, 2020
本篇研究提出了一种数据选择策略(称为 LM Filter),目的是提高 Noisy Student Training 在自动语音识别中对非目标领域数据的表现。使用带和不带语言模型的假设,其 CER 差异用作过滤阈值,结果显示相比较没有数据过滤的基准表现,能够获得 10.4% 的显著提高。在 AISHELL-1 测试集中我们能够达到 3.31% 的 CER,代表了我们目前的最佳结果,而在监督的 1000 小时 AISHELL-2 数据集上,则能够达到 4.73% 的 CER,具有竞争性的表现。
Nov, 2022
在线社交媒体存在大量冒犯和仇恨言论,为了解决这个问题,需要自动检测这些言论,而手动标注高质量的数据集困难且花费高。本研究探讨了使用自我训练方法和文本数据增强技术来提高训练数据量和模型鲁棒性的效果,在两个冒犯和仇恨言论数据集上进行实验证明了自我训练方法能一致提升性能,但噪声引入的文本数据增强技术会降低性能。
Jul, 2023
本文提出了一种不需要主观 / 客观语音质量度量作为参考的教师 - 学生训练策略来改进先前提出的嘈杂目标训练策略,并使用该模型作为初始模型,实验结果表明我们的方法优于几个基准方法,尤其是在两阶段推理中。
Oct, 2022
本文提出了一种通过机器学习方法处理低资源语言中语音理解数据的方法,通过多个模型同时对不同扩充的训练数据对彼此提供监督信号,实现了对数据的去噪处理,在两个基准数据集上的实验结果表明,我们的方法优于现有技术达 3.05% 和 4.24% 的性能表现。
Sep, 2021
通过使用先进的数据增强方法 RandAugment 和后向翻译来取代简单噪声操作,在大量无标签数据上进行一致性训练,从而在六种语言和三个视觉任务中带来了显著的改进,并在 CIFAR-10 数据集上超过了所有先前的方法,实现了错误率为 5.43,只使用了 250 个示例。
Apr, 2019
本研究提出了一种改进的 DistilHuBERT 模型,该模型引入了噪声和混响以及多任务学习的训练方法,能够有效提高在真实环境下的边缘语音应用中的鲁棒性。
Nov, 2022
这篇论文提出了一种相对简单的课程式的训练策略,称为 Accordion Annealing(ACCAN),它利用一个多阶段的训练计划来增加语音识别系统的噪声韧性,同时应用 Per-epoch Noise Mixing(PEM)方法来动态改变训练数据的信噪比,该方法在 20dB 至 - 10dB SNR 范围内的平均词错误率取得了 31.4%的下降。
Jun, 2016