2023 VoxCeleb 演讲者识别挑战中的 UNISOUND 系统

Aug, 2023

2023 VoxCeleb 演讲者识别挑战中的 UNISOUND 系统

UNISOUND System for VoxCeleb Speaker Recognition Challenge 2023

Yu Zheng, Yajun Zhang, Chuanying Niu, Yibin Zhan, Yanhua Long...

TL;DRUNISOUND 在 VoxCeleb 2023 声纹识别挑战中提出了一种基于 ResNet 和 RepVGG 架构的一致性感知分数校准方法，通过 Consistency Measure Factor（CMF）利用音频声纹的相似性分数稳定性，该方法大大提升了性能，在挑战中获得了第一名（Track 1）和第二名（Track 2）。

Abstract

This report describes the unisound submission for Track1 and Track2 of voxceleb speaker recognition challenge 2023 (VoxSRC 2023). We submit the same system on Track 1 and Track 2, which is trained with only VoxCe

unisound voxceleb speaker recognition challenge resnet repvgg consistency-aware score calibration method

发现论文，激发创造

中国电信参赛介绍 - VoxCeleb2023 说话人识别挑战

中国电信在 VoxCeleb2023 发言人识别挑战的第一轨（闭集）中使用了多个 VoxCeleb2 训练的 ResNet 变体，通过融合优化模型性能，并为每个变体和融合系统进行得分校准，最终的提交结果为 minDCF 为 0.1066 和 EER 为 1.980%。

Aug, 2023

2022 VoxCeleb 说话人识别挑战赛的 Royalflush 系统

本文介绍了在 VoxCeleb2022 挑战中的 Royalflush 提交结果。我们提出了针对监督和半监督说话人验证的强大 U-Net 架构的说话人嵌入提取器，最终得到了 10 个模型的融合结果，取得了较好的 VoxSRC-22 挑战的性能。

Sep, 2022

VoxCeleb 2022 发言人识别挑战中的 ReturnZero 系统

本文介绍了团队 RTZR VoxCeleb 在闭合数据集、发言人验证 Track1 方面的顶尖成果，采用了 7 个模型，包含 3 种不同类型的模型结构，并注重训练模型来学习额外时域的信息。通过正确的评估过程，使用自适应对称规范化（AS-Norm）和矩阵分数平均（MSA）的评分方法以及逻辑回归的模型混合，最终提交获得了 0.165 的 DCF 和 2.912％的 EER。

Sep, 2022

CNSRC2022 的 SpeakIn 系统描述

在 CN-Celeb 讲者识别挑战赛中，我们使用 ResNet、RepVGG 和 TDNN 架构，采用全局统计汇聚结构和 MQMHA 汇聚结构对声学数据进行处理，并使用 AM-Softmax 算法对其进行分类，最终取得了 SV 任务无榜首、有榜首以及 SR 任务的三个不同奖项。

Sep, 2022

2022 远场说话人验证挑战赛的 SpeakIn 说话人验证系统

本文介绍了 SpeakIn 团队提交的 Far-Field Speaker Verification Challenge 2022（FFSVC2022）任务一和任务二的讲话者验证（SV）系统。我们采用基于 ResNet 和 RepVGG 的架构，采用全局统计汇集结构和 MQMHA 池化结构进行特征汇集，创新性地提出了分阶段迁移学习方法来提高模型性能，解决了领域不匹配问题，并在两个挑战任务中表现出优异的性能。

Sep, 2022

2022 Newsbridge-Telecom SudParis VoxCeleb 说话人识别挑战系统描述

该研究论文讨论了 VoxCeleb Speaker Recognition Challenge 2022 中讲者辨识赛道中的语音活动检测问题，提出了基于多流方法和熵决策协议的语音活动检测模型，并取得了接近最新成果的效果。

Jan, 2023

2020 年 VoxCeleb 说话人识别大赛微软说话人分离系统

本文介绍了 Microsoft 公司的单声道多人对话录音扬声器辨识系统，并用 VoxCeleb 挑战赛 2020 年的说话人辨识赛道进行了评估。论文首先介绍了解决真实多人对话记录中的问题的系统设计。然后介绍了组件的细节，其中包括 Res2Net 基于说话人嵌入提取器，基于 conformer 的连续语音分离和泄漏过滤，以及修改后的 DOVER 方法用于系统融合。使用 VoxSRC challenge 2020 提供的数据集进行系统评估。我们的最佳系统在开发集上的辨识错误率（DER）为 3.71％，在评估集上的 DER 为 6.23％，并在挑战的辨识赛道上排名第一。

Oct, 2020

VoxCeleb2：深度语音说话人识别

本文介绍了一个大规模的音频 - 视觉说话人识别数据集，用于使用卷积神经网络模型和训练策略在各种条件下有效识别声音中的身份，并展示出比以前的成果更高的性能表现。

Jun, 2018

2023 CNVSRC 挑战赛 GUA-Speech 系统介绍

这项研究描述了我们在 2023 年中国持续视觉语音识别挑战赛中针对任务 1 单说话者视觉语音识别（VSR）固定轨道的系统。具体来说，我们在模型中使用中间连接主义时间分类（Inter CTC）残差模块来放宽 CTC 的条件独立性假设，然后使用双变压器解码器使模型能够捕捉过去和未来的上下文信息。此外，我们使用汉字作为建模单元来提高模型的识别准确性。最后，在推断阶段，我们使用了递归神经网络语言模型（RNNLM）进行浅层融合。实验表明，我们的系统在评估集上的字符错误率（CER）为 38.09%，相对于官方基准线减少了 21.63%，并在挑战赛中获得了第二名。

Dec, 2023

NIST 2020 SRE CTS 挑战中的 THUEE 系统介绍

本文介绍了 THUEE 团队在 NIST 2020 演讲者识别评估（SRE）会话电话语音（CTS）挑战中所采用的系统描述。在该评估中，我们采用了包括 ResNet74、ResNet152 和 RepVGG-B2 在内的子系统作为说话人嵌入提取器，并使用结合的 AM-Softmax 和 AAM-Softmax 基于损失函数（即 CM-Softmax）来进一步提高系统性能的两阶段培训策略。我们将所有单个系统融合为我们的最终提交，这种方法表现出优秀的性能，并在挑战中排名第一。

Oct, 2022