CNSRC2022 的 SpeakIn 系统描述
本文介绍了 SpeakIn 团队提交的 Far-Field Speaker Verification Challenge 2022(FFSVC2022)任务一和任务二的讲话者验证(SV)系统。我们采用基于 ResNet 和 RepVGG 的架构,采用全局统计汇集结构和 MQMHA 池化结构进行特征汇集,创新性地提出了分阶段迁移学习方法来提高模型性能,解决了领域不匹配问题,并在两个挑战任务中表现出优异的性能。
Sep, 2022
这项研究描述了我们在 2023 年中国持续视觉语音识别挑战赛中针对任务 1 单说话者视觉语音识别(VSR)固定轨道的系统。具体来说,我们在模型中使用中间连接主义时间分类(Inter CTC)残差模块来放宽 CTC 的条件独立性假设,然后使用双变压器解码器使模型能够捕捉过去和未来的上下文信息。此外,我们使用汉字作为建模单元来提高模型的识别准确性。最后,在推断阶段,我们使用了递归神经网络语言模型(RNNLM)进行浅层融合。实验表明,我们的系统在评估集上的字符错误率(CER)为 38.09%,相对于官方基准线减少了 21.63%,并在挑战赛中获得了第二名。
Dec, 2023
UNISOUND 在 VoxCeleb 2023 声纹识别挑战中提出了一种基于 ResNet 和 RepVGG 架构的一致性感知分数校准方法,通过 Consistency Measure Factor(CMF)利用音频声纹的相似性分数稳定性,该方法大大提升了性能,在挑战中获得了第一名(Track 1)和第二名(Track 2)。
Aug, 2023
本文介绍了 NPU-ASLP-LiAuto(第 237 队)在 2023 年中国连续视觉语音识别挑战赛中引入的视觉语音识别(VSR)系统,涉及单说话人 VSR 任务的固定和开放跟踪,以及多说话人 VSR 任务的开放跟踪。实验结果表明,在多系统融合后,我们的系统在单说话人任务上实现了 34.76% 的 CER,在多说话人任务上实现了 41.06% 的 CER,在我们参与的所有三个跟踪中排名第一。
Jan, 2024
本文介绍了 THUEE 团队在 NIST 2020 演讲者识别评估(SRE)会话电话语音(CTS)挑战中所采用的系统描述。在该评估中,我们采用了包括 ResNet74、ResNet152 和 RepVGG-B2 在内的子系统作为说话人嵌入提取器,并使用结合的 AM-Softmax 和 AAM-Softmax 基于损失函数(即 CM-Softmax)来进一步提高系统性能的两阶段培训策略。我们将所有单个系统融合为我们的最终提交,这种方法表现出优秀的性能,并在挑战中排名第一。
Oct, 2022
中国电信在 VoxCeleb2023 发言人识别挑战的第一轨(闭集)中使用了多个 VoxCeleb2 训练的 ResNet 变体,通过融合优化模型性能,并为每个变体和融合系统进行得分校准,最终的提交结果为 minDCF 为 0.1066 和 EER 为 1.980%。
Aug, 2023
本文介绍了团队 RTZR VoxCeleb 在闭合数据集、发言人验证 Track1 方面的顶尖成果,采用了 7 个模型,包含 3 种不同类型的模型结构,并注重训练模型来学习额外时域的信息。通过正确的评估过程,使用自适应对称规范化(AS-Norm)和矩阵分数平均(MSA)的评分方法以及逻辑回归的模型混合,最终提交获得了 0.165 的 DCF 和 2.912%的 EER。
Sep, 2022
本文介绍了在 VoxCeleb2022 挑战中的 Royalflush 提交结果。我们提出了针对监督和半监督说话人验证的强大 U-Net 架构的说话人嵌入提取器,最终得到了 10 个模型的融合结果,取得了较好的 VoxSRC-22 挑战的性能。
Sep, 2022
本文介绍了通过采用基于卷积神经网络和循环神经网络的基本框架以及学习可控门激活函数、基于关注机制的方案和新的批次平衡策略等方法来解决 Acoustic Scenes 和 Weakly-Supervised Learning 问题。在该方法下,我们的音频标记和声音事件检测分别取得了 61% 和 0.73 的 F-Value 和 error rate。
Sep, 2017
通过引入多语种音视频语音识别模型和快速调整器模型,提高了模型性能和音频噪音稳健性。在多语种数据集上进行训练,达到了领先水平,并在 MuAViC 基准测试中显著减少了平均识别错误率。
Mar, 2024