通过自监督预训练实现噪声鲁棒的关键词检测

Mar, 2024

通过自监督预训练实现噪声鲁棒的关键词检测

Noise-Robust Keyword Spotting through Self-supervised Pretraining

Jacob Mørk, Holger Severin Bovbjerg, Gergely Kiss, Zheng-Hua Tan

TL;DR使用自我监督学习（SSL）预训练算法 Data2Vec 可以提高关键词识别（KWS）模型在嘈杂环境下的鲁棒性。

Abstract

voice assistants are now widely available, and to activate them a keyword spotting (KWS) algorithm is used. Modern KWS systems are mainly trained using supervised learning methods and require a large amount of labelled data to achieve a good performance. Leveraging unlabelled data thro

voice assistants keyword spotting self-supervised learning pretraining kws models

发现论文，激发创造

探索用于小尺寸关键词检测的表示学习

本文探讨了如何利用自监督对比学习和预训练模型来进行低资源关键词检测中的表征学习，通过构建局部 - 全局对比同构网络和利用预训练 Wav2Vec 2.0 模型，该小型模型可以利用未标记的数据进行预训练，实验结果表明在小的标记数据集的情况下，自我训练的 WVC 模块和自监督的 LGCSiam 模块可以显著提高准确性。

Mar, 2023

借助辅助数据监督提高小型足迹的少样本关键词识别

使用未标记的朗读语音数据作为辅助来源，我们提出了一个框架，通过自动注释和过滤数据来构建类似于关键词的数据集，利用多任务学习来提高模型的表示能力，从而显著提高了少样本关键词检测模型性能。

Aug, 2023

基于语音增强的无监督学习关键词检测

本文研究了一种基于语音增强的无监督学习方法来解决关键词检测任务，提出了一种 CNN-Attention 模型来处理关键词检测任务，并通过两种语音增强方法来提高模型的稳健性和分类效果，实验表明，这种增强式的无监督学习方法能够进一步提高关键词检测的准确率。

May, 2022

通过对比学习预训练任务，实现噪声鲁棒的唤醒词检测，快速引入新的唤醒词

研究表明，利用对比学习作为预训练任务有助于检测模型泛化到不同词和噪声条件，这在支持新的触发词时有重要意义，而提供预训练的技术包括有监督对比技术和使用长句音频的分块词的新型自监督训练技术，这些技术使用更少的数据可用性在新的触发单词上具有可比较的结果。

Nov, 2021

Wav2Vec-Aug: 有限数据下的改进自监督训练

本文探讨了如何利用数据增强技术来解决语言和领域中数据不足的问题，从而在限制条件下将自监督学习应用于语音表示方面，并在 Wav2Vec 2.0 预训练模型的每个组成部分上提出了改进方法，在 Librispeech 的测试任务中比 Wav2Vec 2.0 实现了 13％的相对字错误率改进。

Jun, 2022

wav2vec: 语音识别的无监督预训练

本研究通过对原始音频进行特征学习，探索无监督的语音识别预训练方法，在大量无标注音频数据上进行训练，结果表示所得到的特征对提高声学模型训练有积极意义。在 WSJ 测试中，仅使用少量已识别数据，我们的方法成功将 WER 从传统的 log-mel filterbank 上降低了最多 36％，最终的 WER 为 2.43％，使用的标注数据量较 Deep Speech 2 少两个数量级。

Apr, 2019

半监督联邦学习用于关键词检测

本研究探讨了利用半监督联邦学习和联邦学习进行关键词识别，在服务端只有少量标注数据情况下，运用半监督联邦学习技术对未标注的数据进行识别，证明了联合设备中大量未标注的异构数据可以显着提高关键词识别模型的性能。

May, 2023

自学习和预训练对于语音识别互补

这篇论文研究了自我训练和无监督预训练以提高语音识别系统的有效方法，并揭示了伪标记和使用 wav2vec 2.0 进行预训练在各种标签数据集上是有互补性的。使用 Libri-light 的仅 10 分钟标注数据和 LibriVox 的 53000 小时未标注数据，在 Librispeech 的测试集上实现了 3.0％/ 5.2％的识别率，这与一年前只经过 960 小时标注数据训练的最佳系统相媲美。使用所有标注数据的训练实现了 1.5％/ 3.1％的识别率。

Oct, 2020

野外视觉语音识别零样本关键词检测

本论文针对实际应用中未被训练过的词语进行视觉关键词检测的问题，并使用端到端的多层神经网络架构，使用语音图形编码器解决了此问题，该模型在 LRS2 数据集上取得了非常有前途的结果。

Jul, 2018

使用有限和合成的语音数据训练关键词检测器

本文研究使用合成语音数据为小型的口语术语检测模型训练提取有用特征的预训练语音嵌入模型，相较于在 500 个真实示例上训练模型，只使用合成语音即可达到同等精度。

Jan, 2020