Oct, 2021

大规模自监督语音表征学习用于自动化说话者验证

TL;DR使用预训练模型学习到的语音表示作为输入特征,采用可学习权重的平均表示方法,在 Voxceleb 数据集上进行了自我监督训练,实现了自动说话人验证,在三个官方测试中分别取得了 0.537%、0.569%和 1.180%的等误差率(EER),超越了 VoxCeleb Speaker Recognition Challenge 2021 (VoxSRC2021) 中的优胜系统。