2023 年位移式演讲者脱机化挑战的系统描述
DIarization of SPeaker and LAnguage in Conversational Environments (DISPLACE) 2024 challenge involves tasks of speaker diarization (SD), language diarization (LD), and automatic speech recognition (ASR) on a multilingual conversational speech dataset, with details of the dataset, baseline systems, and performance comparison with DISPLACE-2023.
Jun, 2024
在多语言社会中,非正式对话经常涉及多种语言的混合使用。DISPLACE 挑战对多语言和说话者鉴别技术进行了评估和基准测试,其中 Track-1 专注于多语境的说话者鉴别,而 Track-2 则针对多说话者情境的语言鉴别。该论文详述了挑战、数据集、任务和基准系统,并提供了顶尖系统的概述,强调了在这些对话中系统在普遍商业应用之前需要克服的主要挑战。
Nov, 2023
本文介绍了 Microsoft 公司的单声道多人对话录音扬声器辨识系统,并用 VoxCeleb 挑战赛 2020 年的说话人辨识赛道进行了评估。论文首先介绍了解决真实多人对话记录中的问题的系统设计。然后介绍了组件的细节,其中包括 Res2Net 基于说话人嵌入提取器,基于 conformer 的连续语音分离和泄漏过滤,以及修改后的 DOVER 方法用于系统融合。使用 VoxSRC challenge 2020 提供的数据集进行系统评估。我们的最佳系统在开发集上的辨识错误率(DER)为 3.71%,在评估集上的 DER 为 6.23%,并在挑战的辨识赛道上排名第一。
Oct, 2020
该论文描述了 TSUP 团队在 ISCSLP 2022 CSSD 挑战赛中的参赛表现和关键研究成果,侧重于短话语音者分离与新的评价指标 CDER。SC 方法是最受欢迎的方法并且所有的三种语音者分离系统都需要调参,最后 SC 系统的表现居于第三名。
Oct, 2022
报告中介绍了我们在 Ego4D Challenge 2022 中处理 Audio-Visual Diarization 任务的方法,该方法通过对模型的训练计划进行修改改进了声音活动的检测性能,证明了采用现成的语音活动检测模型可以有效地消除误报,而更好的主动说话者检测可提高 AVD 结果。我们的最终方法在 Ego4D 测试集上获得了 65.9% 的 DER,远远优于所有基线,在比赛中取得了第一名。
Oct, 2022
本文介绍了 BUT 团队在 VoxCeleb 讲者识别挑战的第四个跟踪中针对 VoxConverse 数据集开发的系统,重点关注了 diarization。该系统包括信号预处理、语音活动检测、说话人嵌入提取、初始化凝聚 Hierarchical 聚类后采用贝叶斯隐藏 Markov 模型进行 diarization、基于每个说话人全局嵌入的重新聚类步骤以及重叠语音检测和处理。我们为每个步骤提供比较,并分享我们系统中最相关模块的实现。我们的系统在主要指标(diarization 错误率)方面得分第二,并根据辅助指标(Jaccard 错误率)得分第一。
Oct, 2020
通过应用连续的孟加拉语音,我们提出了一种方法来确定某个地区说话者的地理身份,使用了 Mel 频率倒谱系数(MFCC)和 Delta 特征在人工神经网络上对说话者进行分类,并在特征提取之前对原始音频进行了一些预处理任务。我们的数据集包括 633 个男性和女性说话者的超过 45 小时的音频数据,并获得了 85.44% 的最高准确率。
Apr, 2024
该研究论文讨论了 VoxCeleb Speaker Recognition Challenge 2022 中讲者辨识赛道中的语音活动检测问题,提出了基于多流方法和熵决策协议的语音活动检测模型,并取得了接近最新成果的效果。
Jan, 2023
本文介绍了 SpeakIn 团队提交的 Far-Field Speaker Verification Challenge 2022(FFSVC2022)任务一和任务二的讲话者验证(SV)系统。我们采用基于 ResNet 和 RepVGG 的架构,采用全局统计汇集结构和 MQMHA 池化结构进行特征汇集,创新性地提出了分阶段迁移学习方法来提高模型性能,解决了领域不匹配问题,并在两个挑战任务中表现出优异的性能。
Sep, 2022
本文综述了演讲者分离技术的历史发展,并重点介绍了基于深度学习的新进展,以及演讲者分离系统与语音识别应用之间的相互作用。我们认为,这是一篇有价值的综述工作,为进一步提高演讲者分离效率提供了有力的支持。
Jan, 2021