中国电信参赛介绍 - VoxCeleb2023 说话人识别挑战
UNISOUND 在 VoxCeleb 2023 声纹识别挑战中提出了一种基于 ResNet 和 RepVGG 架构的一致性感知分数校准方法,通过 Consistency Measure Factor(CMF)利用音频声纹的相似性分数稳定性,该方法大大提升了性能,在挑战中获得了第一名(Track 1)和第二名(Track 2)。
Aug, 2023
该研究论文讨论了 VoxCeleb Speaker Recognition Challenge 2022 中讲者辨识赛道中的语音活动检测问题,提出了基于多流方法和熵决策协议的语音活动检测模型,并取得了接近最新成果的效果。
Jan, 2023
本文介绍了团队 RTZR VoxCeleb 在闭合数据集、发言人验证 Track1 方面的顶尖成果,采用了 7 个模型,包含 3 种不同类型的模型结构,并注重训练模型来学习额外时域的信息。通过正确的评估过程,使用自适应对称规范化(AS-Norm)和矩阵分数平均(MSA)的评分方法以及逻辑回归的模型混合,最终提交获得了 0.165 的 DCF 和 2.912%的 EER。
Sep, 2022
本文介绍了在 VoxCeleb2022 挑战中的 Royalflush 提交结果。我们提出了针对监督和半监督说话人验证的强大 U-Net 架构的说话人嵌入提取器,最终得到了 10 个模型的融合结果,取得了较好的 VoxSRC-22 挑战的性能。
Sep, 2022
本文介绍了 Microsoft 公司的单声道多人对话录音扬声器辨识系统,并用 VoxCeleb 挑战赛 2020 年的说话人辨识赛道进行了评估。论文首先介绍了解决真实多人对话记录中的问题的系统设计。然后介绍了组件的细节,其中包括 Res2Net 基于说话人嵌入提取器,基于 conformer 的连续语音分离和泄漏过滤,以及修改后的 DOVER 方法用于系统融合。使用 VoxSRC challenge 2020 提供的数据集进行系统评估。我们的最佳系统在开发集上的辨识错误率(DER)为 3.71%,在评估集上的 DER 为 6.23%,并在挑战的辨识赛道上排名第一。
Oct, 2020
在 CN-Celeb 讲者识别挑战赛中,我们使用 ResNet、RepVGG 和 TDNN 架构,采用全局统计汇聚结构和 MQMHA 汇聚结构对声学数据进行处理,并使用 AM-Softmax 算法对其进行分类,最终取得了 SV 任务无榜首、有榜首以及 SR 任务的三个不同奖项。
Sep, 2022
这项研究描述了我们在 2023 年中国持续视觉语音识别挑战赛中针对任务 1 单说话者视觉语音识别(VSR)固定轨道的系统。具体来说,我们在模型中使用中间连接主义时间分类(Inter CTC)残差模块来放宽 CTC 的条件独立性假设,然后使用双变压器解码器使模型能够捕捉过去和未来的上下文信息。此外,我们使用汉字作为建模单元来提高模型的识别准确性。最后,在推断阶段,我们使用了递归神经网络语言模型(RNNLM)进行浅层融合。实验表明,我们的系统在评估集上的字符错误率(CER)为 38.09%,相对于官方基准线减少了 21.63%,并在挑战赛中获得了第二名。
Dec, 2023
本文介绍了 SpeakIn 团队提交的 Far-Field Speaker Verification Challenge 2022(FFSVC2022)任务一和任务二的讲话者验证(SV)系统。我们采用基于 ResNet 和 RepVGG 的架构,采用全局统计汇集结构和 MQMHA 池化结构进行特征汇集,创新性地提出了分阶段迁移学习方法来提高模型性能,解决了领域不匹配问题,并在两个挑战任务中表现出优异的性能。
Sep, 2022
第一次的中国连续视觉语音识别挑战旨在评估大词汇量连续视觉语音识别在两个任务上的性能:(1)针对特定说话人的单一说话人语音识别和(2)针对一组已注册说话人的多说话人语音识别。此次挑战取得了非常成功的结果,最佳提交结果明显优于基准,尤其是在单一说话人任务中。本文全面回顾了这个挑战,包括数据概况、任务规范和基准系统的构建。同时,它总结了参赛系统所采用的代表性技术,并突出了最有效的方法。有关此挑战的更多信息和资源可通过官方网站访问此 http URL。
Jun, 2024
本文介绍了一个大规模的音频 - 视觉说话人识别数据集,用于使用卷积神经网络模型和训练策略在各种条件下有效识别声音中的身份,并展示出比以前的成果更高的性能表现。
Jun, 2018