Dec, 2023

自监督预训练用于在恶劣环境中实现稳健个性化语音活动检测

TL;DR本文提出了使用大规模无标签数据集上的自监督预训练,以改善个性化语音活动检测 (VAD) 模型在恶劣条件下的性能。我们使用自回归预测编码 (APC) 框架对长短期记忆 (LSTM) 编码器进行预训练,并进行个性化 VAD 的微调。我们还提出了一种去噪的 APC 变体,旨在提高个性化 VAD 的鲁棒性。经过系统评估后,我们发现在清晰环境下,自监督预训练不仅提高了性能,而且生成的模型与纯监督学习相比在恶劣条件下更加鲁棒。