VoxCeleb 2022 发言人识别挑战中的 ReturnZero 系统
本文介绍了在 VoxCeleb2022 挑战中的 Royalflush 提交结果。我们提出了针对监督和半监督说话人验证的强大 U-Net 架构的说话人嵌入提取器,最终得到了 10 个模型的融合结果,取得了较好的 VoxSRC-22 挑战的性能。
Sep, 2022
UNISOUND 在 VoxCeleb 2023 声纹识别挑战中提出了一种基于 ResNet 和 RepVGG 架构的一致性感知分数校准方法,通过 Consistency Measure Factor(CMF)利用音频声纹的相似性分数稳定性,该方法大大提升了性能,在挑战中获得了第一名(Track 1)和第二名(Track 2)。
Aug, 2023
中国电信在 VoxCeleb2023 发言人识别挑战的第一轨(闭集)中使用了多个 VoxCeleb2 训练的 ResNet 变体,通过融合优化模型性能,并为每个变体和融合系统进行得分校准,最终的提交结果为 minDCF 为 0.1066 和 EER 为 1.980%。
Aug, 2023
本文介绍了 SpeakIn 团队提交的 Far-Field Speaker Verification Challenge 2022(FFSVC2022)任务一和任务二的讲话者验证(SV)系统。我们采用基于 ResNet 和 RepVGG 的架构,采用全局统计汇集结构和 MQMHA 池化结构进行特征汇集,创新性地提出了分阶段迁移学习方法来提高模型性能,解决了领域不匹配问题,并在两个挑战任务中表现出优异的性能。
Sep, 2022
在 CN-Celeb 讲者识别挑战赛中,我们使用 ResNet、RepVGG 和 TDNN 架构,采用全局统计汇聚结构和 MQMHA 汇聚结构对声学数据进行处理,并使用 AM-Softmax 算法对其进行分类,最终取得了 SV 任务无榜首、有榜首以及 SR 任务的三个不同奖项。
Sep, 2022
本文介绍了 Microsoft 公司的单声道多人对话录音扬声器辨识系统,并用 VoxCeleb 挑战赛 2020 年的说话人辨识赛道进行了评估。论文首先介绍了解决真实多人对话记录中的问题的系统设计。然后介绍了组件的细节,其中包括 Res2Net 基于说话人嵌入提取器,基于 conformer 的连续语音分离和泄漏过滤,以及修改后的 DOVER 方法用于系统融合。使用 VoxSRC challenge 2020 提供的数据集进行系统评估。我们的最佳系统在开发集上的辨识错误率(DER)为 3.71%,在评估集上的 DER 为 6.23%,并在挑战的辨识赛道上排名第一。
Oct, 2020
该研究论文讨论了 VoxCeleb Speaker Recognition Challenge 2022 中讲者辨识赛道中的语音活动检测问题,提出了基于多流方法和熵决策协议的语音活动检测模型,并取得了接近最新成果的效果。
Jan, 2023
本文介绍了我们在 ICASSP 2022 M2MeT 挑战中的参赛作品。对于 Track 1,我们提出多种方法来加强聚类式说话人分割系统以应对重叠语音;对于 Track 2,我们采用 Conformer 模型和神经前端模块来训练系统,实现多声道混叠语音识别,最终取得了比较好的性能表现。
Feb, 2022
该研究提出了 Zero Resource Speech Challenge 2021 语音挑战赛,要求参与者直接从音频中学习语言模型,无需任何文本或标签,并提供了一种基于对比性预测编码器、量化器和标准语言模型的管道基线系统。
Apr, 2021
这项研究描述了我们在 2023 年中国持续视觉语音识别挑战赛中针对任务 1 单说话者视觉语音识别(VSR)固定轨道的系统。具体来说,我们在模型中使用中间连接主义时间分类(Inter CTC)残差模块来放宽 CTC 的条件独立性假设,然后使用双变压器解码器使模型能够捕捉过去和未来的上下文信息。此外,我们使用汉字作为建模单元来提高模型的识别准确性。最后,在推断阶段,我们使用了递归神经网络语言模型(RNNLM)进行浅层融合。实验表明,我们的系统在评估集上的字符错误率(CER)为 38.09%,相对于官方基准线减少了 21.63%,并在挑战赛中获得了第二名。
Dec, 2023