CHiME-7 DASR 挑战赛:异地会议多设备转录应用于多样化场景
该论文介绍了第五届 CHiME 挑战赛,旨在通过与语言处理、信号处理和机器学习相结合的研究促进 ASR 技术的发展,其中考虑了远距离多麦克风对话 ASR 在真实家庭环境中的应用,收集了代表自然对话语音的数据,并记录了 6 个 Kinect 麦克风阵列和 4 个双耳式麦克风对的数据。
Mar, 2018
本文介绍了基于 CHiME-6 Speech Separation and Recognition Challenge(CHiME-6)的多说话人语音分离和识别问题,该比赛首次尝试了基于无分割的多说话人语音识别方案,并提供了完整的可重现性开源基线方案。
Apr, 2020
引入首个远场音频记录的自然办公室对话者(“NOTSOFAR-1”)挑战,共带来数据集和基准系统。该挑战专注于远距离发言人日记和远场会议情景下的自动语音识别(DASR),并推出两个新的数据集:一是 315 个会议的基准测试数据集,每个会议平均约 6 分钟,捕捉了广泛的真实世界声学环境和对话动态;二是 1000 小时的模拟训练数据集,以增强真实世界泛化的真实性,并融合了 15000 个真实声学传递函数。该研究聚焦于单设备 DASR,在多通道设备的情况下具有相同已知的几何形状,旨在推动远距离对话语音识别领域的研究,为解锁数据驱动方法的潜力提供关键资源。
Jan, 2024
介绍第二届 DIHARD 挑战赛,该挑战赛旨在改善辨别系统对不同录音设备、噪音条件和对话领域变化的适应能力。本文描述了挑战任务、数据集和基线系统。
Jun, 2019
本文介绍了我们在 ICASSP 2022 M2MeT 挑战中的参赛作品。对于 Track 1,我们提出多种方法来加强聚类式说话人分割系统以应对重叠语音;对于 Track 2,我们采用 Conformer 模型和神经前端模块来训练系统,实现多声道混叠语音识别,最终取得了比较好的性能表现。
Feb, 2022
我们团队在 ICMC-ASR 挑战赛的两个方向上付出了努力,包括多通道前端增强和辨析、训练数据增强、多通道分支的语音识别模型,经测试,在官方 Eval1 和 Eval2 数据集上,我们的最佳系统相对于官方基准系统提高了 34.3% 的 CER 和 56.5% 的 cpCER。
Dec, 2023
本文介绍了 DIRHA-ENGLISH 多麦克风语料库,其中包括 12 名美国和英国的英语母语者,研究了语音处理、DNN 和远程语音识别等方面的基线结果。
Oct, 2017
促进驾驶场景下的语音处理和识别研究,建立在 ISCSLP 2022 举办的智能座舱语音识别挑战(ICSRC)成功的基础上,我们推出 ICASSP 2024 车载多通道自动语音识别(ICMC-ASR)挑战。该挑战收集了 100 多小时的多通道语音数据,记录在新能源汽车内,以及 40 小时的噪声用于数据增强。设立了两个赛道,包括自动语音识别(ASR)和自动语音日志记录与识别(ASDR),使用字符错误率(CER)和连接最小排列字符错误率(cpCER)作为评估指标。总体上,ICMC-ASR 挑战吸引了 98 支参赛团队,同时在两个赛道上收到了 53 份有效结果。最后,第一名的 USTCiflytek 团队在 ASR 赛道上取得 13.16% 的 CER,并在 ASDR 赛道上取得 21.48% 的 cpCER,与我们的挑战基线相比,在 ASR 方面绝对改进了 13.08%,在 ASDR 方面绝对改进了 51.4%。
Jan, 2024
在多频道多方会议转录挑战中,我们提出了两种改进目标说话人语音活动检测技术,能够处理高重叠率,重音和嘈杂环境中的多人对话,并展示了我们的系统与经典聚类算法相比,在 ALIMEETING 语料库中将 DER 降低了长达 66.55/60.59%。
Feb, 2022