CNSRC2022 的 SpeakIn 系统描述

Sep, 2022

The SpeakIn System Description for CNSRC2022

Yu Zheng, Yihao Chen, Jinghan Peng, Yajun Zhang, Min Liu...

TL;DR在 CN-Celeb 讲者识别挑战赛中，我们使用 ResNet、RepVGG 和 TDNN 架构，采用全局统计汇聚结构和 MQMHA 汇聚结构对声学数据进行处理，并使用 AM-Softmax 算法对其进行分类，最终取得了 SV 任务无榜首、有榜首以及 SR 任务的三个不同奖项。

Abstract

This report describes our speaker verification systems for the tasks of the CN-Celeb Speaker Recognition Challenge 2022 (CNSRC 2022). This challenge includes two tasks, namely speaker verification(SV) and

speaker verification speaker retrieval audio data resnet-based am-softmax

发现论文，激发创造

2022 远场说话人验证挑战赛的 SpeakIn 说话人验证系统

本文介绍了 SpeakIn 团队提交的 Far-Field Speaker Verification Challenge 2022（FFSVC2022）任务一和任务二的讲话者验证（SV）系统。我们采用基于 ResNet 和 RepVGG 的架构，采用全局统计汇集结构和 MQMHA 池化结构进行特征汇集，创新性地提出了分阶段迁移学习方法来提高模型性能，解决了领域不匹配问题，并在两个挑战任务中表现出优异的性能。

Sep, 2022

2023 CNVSRC 挑战赛 GUA-Speech 系统介绍

这项研究描述了我们在 2023 年中国持续视觉语音识别挑战赛中针对任务 1 单说话者视觉语音识别（VSR）固定轨道的系统。具体来说，我们在模型中使用中间连接主义时间分类（Inter CTC）残差模块来放宽 CTC 的条件独立性假设，然后使用双变压器解码器使模型能够捕捉过去和未来的上下文信息。此外，我们使用汉字作为建模单元来提高模型的识别准确性。最后，在推断阶段，我们使用了递归神经网络语言模型（RNNLM）进行浅层融合。实验表明，我们的系统在评估集上的字符错误率（CER）为 38.09%，相对于官方基准线减少了 21.63%，并在挑战赛中获得了第二名。

Dec, 2023

2023 VoxCeleb 演讲者识别挑战中的 UNISOUND 系统

UNISOUND 在 VoxCeleb 2023 声纹识别挑战中提出了一种基于 ResNet 和 RepVGG 架构的一致性感知分数校准方法，通过 Consistency Measure Factor（CMF）利用音频声纹的相似性分数稳定性，该方法大大提升了性能，在挑战中获得了第一名（Track 1）和第二名（Track 2）。

Aug, 2023

CNVSRC 2023 中的视觉语音识别的 NPU-ASLP-LiAuto 系统描述

本文介绍了 NPU-ASLP-LiAuto（第 237 队）在 2023 年中国连续视觉语音识别挑战赛中引入的视觉语音识别（VSR）系统，涉及单说话人 VSR 任务的固定和开放跟踪，以及多说话人 VSR 任务的开放跟踪。实验结果表明，在多系统融合后，我们的系统在单说话人任务上实现了 34.76% 的 CER，在多说话人任务上实现了 41.06% 的 CER，在我们参与的所有三个跟踪中排名第一。

Jan, 2024

NIST 2020 SRE CTS 挑战中的 THUEE 系统介绍

本文介绍了 THUEE 团队在 NIST 2020 演讲者识别评估（SRE）会话电话语音（CTS）挑战中所采用的系统描述。在该评估中，我们采用了包括 ResNet74、ResNet152 和 RepVGG-B2 在内的子系统作为说话人嵌入提取器，并使用结合的 AM-Softmax 和 AAM-Softmax 基于损失函数（即 CM-Softmax）来进一步提高系统性能的两阶段培训策略。我们将所有单个系统融合为我们的最终提交，这种方法表现出优秀的性能，并在挑战中排名第一。

Oct, 2022

中国电信参赛介绍 - VoxCeleb2023 说话人识别挑战

中国电信在 VoxCeleb2023 发言人识别挑战的第一轨（闭集）中使用了多个 VoxCeleb2 训练的 ResNet 变体，通过融合优化模型性能，并为每个变体和融合系统进行得分校准，最终的提交结果为 minDCF 为 0.1066 和 EER 为 1.980%。

Aug, 2023

VoxCeleb 2022 发言人识别挑战中的 ReturnZero 系统

本文介绍了团队 RTZR VoxCeleb 在闭合数据集、发言人验证 Track1 方面的顶尖成果，采用了 7 个模型，包含 3 种不同类型的模型结构，并注重训练模型来学习额外时域的信息。通过正确的评估过程，使用自适应对称规范化（AS-Norm）和矩阵分数平均（MSA）的评分方法以及逻辑回归的模型混合，最终提交获得了 0.165 的 DCF 和 2.912％的 EER。

Sep, 2022

2022 VoxCeleb 说话人识别挑战赛的 Royalflush 系统

本文介绍了在 VoxCeleb2022 挑战中的 Royalflush 提交结果。我们提出了针对监督和半监督说话人验证的强大 U-Net 架构的说话人嵌入提取器，最终得到了 10 个模型的融合结果，取得了较好的 VoxSRC-22 挑战的性能。

Sep, 2022

DCASE2017 挑战赛任务 4 的 Surrey-cvssp 系统

本文介绍了通过采用基于卷积神经网络和循环神经网络的基本框架以及学习可控门激活函数、基于关注机制的方案和新的批次平衡策略等方法来解决 Acoustic Scenes 和 Weakly-Supervised Learning 问题。在该方法下，我们的音频标记和声音事件检测分别取得了 61% 和 0.73 的 F-Value 和 error rate。

Sep, 2017

混合 CTC/RNN-T 快速 Conformer 的多语言视听语音识别

通过引入多语种音视频语音识别模型和快速调整器模型，提高了模型性能和音频噪音稳健性。在多语种数据集上进行训练，达到了领先水平，并在 MuAViC 基准测试中显著减少了平均识别错误率。

Mar, 2024