第二届 DIHARD 记日说话人识别挑战:数据集,任务和基准
本文介绍了基于 CHiME-6 Speech Separation and Recognition Challenge(CHiME-6)的多说话人语音分离和识别问题,该比赛首次尝试了基于无分割的多说话人语音识别方案,并提供了完整的可重现性开源基线方案。
Apr, 2020
该论文介绍了第五届 CHiME 挑战赛,旨在通过与语言处理、信号处理和机器学习相结合的研究促进 ASR 技术的发展,其中考虑了远距离多麦克风对话 ASR 在真实家庭环境中的应用,收集了代表自然对话语音的数据,并记录了 6 个 Kinect 麦克风阵列和 4 个双耳式麦克风对的数据。
Mar, 2018
在多语言社会中,非正式对话经常涉及多种语言的混合使用。DISPLACE 挑战对多语言和说话者鉴别技术进行了评估和基准测试,其中 Track-1 专注于多语境的说话者鉴别,而 Track-2 则针对多说话者情境的语言鉴别。该论文详述了挑战、数据集、任务和基准系统,并提供了顶尖系统的概述,强调了在这些对话中系统在普遍商业应用之前需要克服的主要挑战。
Nov, 2023
DIarization of SPeaker and LAnguage in Conversational Environments (DISPLACE) 2024 challenge involves tasks of speaker diarization (SD), language diarization (LD), and automatic speech recognition (ASR) on a multilingual conversational speech dataset, with details of the dataset, baseline systems, and performance comparison with DISPLACE-2023.
Jun, 2024
本文介绍了第七届 CHiME 挑战赛中的远场 ASR (DASR) 任务,并描述了挑战的设计、动机和基本研究问题,该任务旨在通过使用自我监督的语音表示法(SSLR)来设计一种可以跨越不同阵列几何和用例的单一系统。
Jun, 2023
文章介绍了一个新的对话说话人分离任务,即 CSSD 任务,提供了相关数据集和评估指标 CDER,并采用变分贝叶斯 HMM x-vector 系统作为 CSSD 任务的基准模型。
Aug, 2022
这篇论文描述了我们对会话环境中演讲者和语言进行辨认的解决方案,我们使用了语音活动检测、基于 Resnet 架构的 CNN 进行特征提取以及基于谱聚类的特征聚类。尽管未使用印地语进行训练,所描述的算法在数据集的开发和阶段 1 评估部分获得了 DER 分别为 27.1% 和 27.4% 的指标。
Jun, 2024
本文介绍了 BUT 团队在 VoxCeleb 讲者识别挑战的第四个跟踪中针对 VoxConverse 数据集开发的系统,重点关注了 diarization。该系统包括信号预处理、语音活动检测、说话人嵌入提取、初始化凝聚 Hierarchical 聚类后采用贝叶斯隐藏 Markov 模型进行 diarization、基于每个说话人全局嵌入的重新聚类步骤以及重叠语音检测和处理。我们为每个步骤提供比较,并分享我们系统中最相关模块的实现。我们的系统在主要指标(diarization 错误率)方面得分第二,并根据辅助指标(Jaccard 错误率)得分第一。
Oct, 2020
报告中介绍了我们在 Ego4D Challenge 2022 中处理 Audio-Visual Diarization 任务的方法,该方法通过对模型的训练计划进行修改改进了声音活动的检测性能,证明了采用现成的语音活动检测模型可以有效地消除误报,而更好的主动说话者检测可提高 AVD 结果。我们的最终方法在 Ego4D 测试集上获得了 65.9% 的 DER,远远优于所有基线,在比赛中取得了第一名。
Oct, 2022
引入首个远场音频记录的自然办公室对话者(“NOTSOFAR-1”)挑战,共带来数据集和基准系统。该挑战专注于远距离发言人日记和远场会议情景下的自动语音识别(DASR),并推出两个新的数据集:一是 315 个会议的基准测试数据集,每个会议平均约 6 分钟,捕捉了广泛的真实世界声学环境和对话动态;二是 1000 小时的模拟训练数据集,以增强真实世界泛化的真实性,并融合了 15000 个真实声学传递函数。该研究聚焦于单设备 DASR,在多通道设备的情况下具有相同已知的几何形状,旨在推动远距离对话语音识别领域的研究,为解锁数据驱动方法的潜力提供关键资源。
Jan, 2024