VoxCeleb 2022 发言人识别挑战中的 ReturnZero 系统

Sep, 2022

VoxCeleb 2022 发言人识别挑战中的 ReturnZero 系统

The ReturnZero System for VoxCeleb Speaker Recognition Challenge 2022

Sangwon Suh, Sunjong Park

TL;DR本文介绍了团队 RTZR VoxCeleb 在闭合数据集、发言人验证 Track1 方面的顶尖成果，采用了 7 个模型，包含 3 种不同类型的模型结构，并注重训练模型来学习额外时域的信息。通过正确的评估过程，使用自适应对称规范化（AS-Norm）和矩阵分数平均（MSA）的评分方法以及逻辑回归的模型混合，最终提交获得了 0.165 的 DCF 和 2.912％的 EER。

Abstract

In this paper, we describe the top-scoring submissions for team RTZR VoxCeleb speaker recognition Challenge 2022 (VoxSRC-22) in the closed dataset, speaker verification Track 1. The top performed system is a fusion

speaker recognition models training scoring methods fusion

发现论文，激发创造

2022 VoxCeleb 说话人识别挑战赛的 Royalflush 系统

本文介绍了在 VoxCeleb2022 挑战中的 Royalflush 提交结果。我们提出了针对监督和半监督说话人验证的强大 U-Net 架构的说话人嵌入提取器，最终得到了 10 个模型的融合结果，取得了较好的 VoxSRC-22 挑战的性能。

Sep, 2022

2023 VoxCeleb 演讲者识别挑战中的 UNISOUND 系统

UNISOUND 在 VoxCeleb 2023 声纹识别挑战中提出了一种基于 ResNet 和 RepVGG 架构的一致性感知分数校准方法，通过 Consistency Measure Factor（CMF）利用音频声纹的相似性分数稳定性，该方法大大提升了性能，在挑战中获得了第一名（Track 1）和第二名（Track 2）。

Aug, 2023

中国电信参赛介绍 - VoxCeleb2023 说话人识别挑战

中国电信在 VoxCeleb2023 发言人识别挑战的第一轨（闭集）中使用了多个 VoxCeleb2 训练的 ResNet 变体，通过融合优化模型性能，并为每个变体和融合系统进行得分校准，最终的提交结果为 minDCF 为 0.1066 和 EER 为 1.980%。

Aug, 2023

2022 远场说话人验证挑战赛的 SpeakIn 说话人验证系统

本文介绍了 SpeakIn 团队提交的 Far-Field Speaker Verification Challenge 2022（FFSVC2022）任务一和任务二的讲话者验证（SV）系统。我们采用基于 ResNet 和 RepVGG 的架构，采用全局统计汇集结构和 MQMHA 池化结构进行特征汇集，创新性地提出了分阶段迁移学习方法来提高模型性能，解决了领域不匹配问题，并在两个挑战任务中表现出优异的性能。

Sep, 2022

CNSRC2022 的 SpeakIn 系统描述

在 CN-Celeb 讲者识别挑战赛中，我们使用 ResNet、RepVGG 和 TDNN 架构，采用全局统计汇聚结构和 MQMHA 汇聚结构对声学数据进行处理，并使用 AM-Softmax 算法对其进行分类，最终取得了 SV 任务无榜首、有榜首以及 SR 任务的三个不同奖项。

Sep, 2022

2020 年 VoxCeleb 说话人识别大赛微软说话人分离系统

本文介绍了 Microsoft 公司的单声道多人对话录音扬声器辨识系统，并用 VoxCeleb 挑战赛 2020 年的说话人辨识赛道进行了评估。论文首先介绍了解决真实多人对话记录中的问题的系统设计。然后介绍了组件的细节，其中包括 Res2Net 基于说话人嵌入提取器，基于 conformer 的连续语音分离和泄漏过滤，以及修改后的 DOVER 方法用于系统融合。使用 VoxSRC challenge 2020 提供的数据集进行系统评估。我们的最佳系统在开发集上的辨识错误率（DER）为 3.71％，在评估集上的 DER 为 6.23％，并在挑战的辨识赛道上排名第一。

Oct, 2020

2022 Newsbridge-Telecom SudParis VoxCeleb 说话人识别挑战系统描述

该研究论文讨论了 VoxCeleb Speaker Recognition Challenge 2022 中讲者辨识赛道中的语音活动检测问题，提出了基于多流方法和熵决策协议的语音活动检测模型，并取得了接近最新成果的效果。

Jan, 2023

ICASSP 2022 多通道多方会议转录挑战赛的 Volcspeech 系统

本文介绍了我们在 ICASSP 2022 M2MeT 挑战中的参赛作品。对于 Track 1，我们提出多种方法来加强聚类式说话人分割系统以应对重叠语音；对于 Track 2，我们采用 Conformer 模型和神经前端模块来训练系统，实现多声道混叠语音识别，最终取得了比较好的性能表现。

Feb, 2022

零资源语音挑战赛 2021: 口语语言建模

该研究提出了 Zero Resource Speech Challenge 2021 语音挑战赛，要求参与者直接从音频中学习语言模型，无需任何文本或标签，并提供了一种基于对比性预测编码器、量化器和标准语言模型的管道基线系统。

Apr, 2021

2023 CNVSRC 挑战赛 GUA-Speech 系统介绍

这项研究描述了我们在 2023 年中国持续视觉语音识别挑战赛中针对任务 1 单说话者视觉语音识别（VSR）固定轨道的系统。具体来说，我们在模型中使用中间连接主义时间分类（Inter CTC）残差模块来放宽 CTC 的条件独立性假设，然后使用双变压器解码器使模型能够捕捉过去和未来的上下文信息。此外，我们使用汉字作为建模单元来提高模型的识别准确性。最后，在推断阶段，我们使用了递归神经网络语言模型（RNNLM）进行浅层融合。实验表明，我们的系统在评估集上的字符错误率（CER）为 38.09%，相对于官方基准线减少了 21.63%，并在挑战赛中获得了第二名。

Dec, 2023