Oct, 2020

2020 年 VoxCeleb 说话人识别大赛微软说话人分离系统

TL;DR本文介绍了 Microsoft 公司的单声道多人对话录音扬声器辨识系统,并用 VoxCeleb 挑战赛 2020 年的说话人辨识赛道进行了评估。论文首先介绍了解决真实多人对话记录中的问题的系统设计。然后介绍了组件的细节,其中包括 Res2Net 基于说话人嵌入提取器,基于 conformer 的连续语音分离和泄漏过滤,以及修改后的 DOVER 方法用于系统融合。使用 VoxSRC challenge 2020 提供的数据集进行系统评估。我们的最佳系统在开发集上的辨识错误率(DER)为 3.71%,在评估集上的 DER 为 6.23%,并在挑战的辨识赛道上排名第一。