Apr, 2022

自监督学习对语音识别的受益及演讲者识别

TL;DR本研究通过 Voxceleb-1 数据集进行了一系列实验来探究自监督学习在演讲者相关任务中表现良好的因素,结果表明模型的收益来源于语音预测损失、数据规模和模型大小的组合,同时自监督量化器的影响较小。我们进一步采用了集成梯度属性方法和损失函数可视化的方法来理解自监督学习对演说者识别性能的有效性。