第五届 'CHiME' 语音分离和识别挑战:数据集、任务和基准线
本文介绍了第七届 CHiME 挑战赛中的远场 ASR (DASR) 任务,并描述了挑战的设计、动机和基本研究问题,该任务旨在通过使用自我监督的语音表示法(SSLR)来设计一种可以跨越不同阵列几何和用例的单一系统。
Jun, 2023
本文介绍了基于 CHiME-6 Speech Separation and Recognition Challenge(CHiME-6)的多说话人语音分离和识别问题,该比赛首次尝试了基于无分割的多说话人语音识别方案,并提供了完整的可重现性开源基线方案。
Apr, 2020
介绍第二届 DIHARD 挑战赛,该挑战赛旨在改善辨别系统对不同录音设备、噪音条件和对话领域变化的适应能力。本文描述了挑战任务、数据集和基线系统。
Jun, 2019
引入首个远场音频记录的自然办公室对话者(“NOTSOFAR-1”)挑战,共带来数据集和基准系统。该挑战专注于远距离发言人日记和远场会议情景下的自动语音识别(DASR),并推出两个新的数据集:一是 315 个会议的基准测试数据集,每个会议平均约 6 分钟,捕捉了广泛的真实世界声学环境和对话动态;二是 1000 小时的模拟训练数据集,以增强真实世界泛化的真实性,并融合了 15000 个真实声学传递函数。该研究聚焦于单设备 DASR,在多通道设备的情况下具有相同已知的几何形状,旨在推动远距离对话语音识别领域的研究,为解锁数据驱动方法的潜力提供关键资源。
Jan, 2024
本文介绍了 DIRHA-ENGLISH 多麦克风语料库,其中包括 12 名美国和英国的英语母语者,研究了语音处理、DNN 和远程语音识别等方面的基线结果。
Oct, 2017
本文针对 CHiME-7 UDASE 任务,通过主观和客观评估系统的结果,揭示了主观评分与最近提出的几个监督非入侵性性能指标在语音增强中的有限相关性,并指出可以使用更传统的入侵性客观指标来评估基于回声的 LibriCHiME-5 数据集的领域内性能。
Feb, 2024
我们团队在 ICMC-ASR 挑战赛的两个方向上付出了努力,包括多通道前端增强和辨析、训练数据增强、多通道分支的语音识别模型,经测试,在官方 Eval1 和 Eval2 数据集上,我们的最佳系统相对于官方基准系统提高了 34.3% 的 CER 和 56.5% 的 cpCER。
Dec, 2023
促进驾驶场景下的语音处理和识别研究,建立在 ISCSLP 2022 举办的智能座舱语音识别挑战(ICSRC)成功的基础上,我们推出 ICASSP 2024 车载多通道自动语音识别(ICMC-ASR)挑战。该挑战收集了 100 多小时的多通道语音数据,记录在新能源汽车内,以及 40 小时的噪声用于数据增强。设立了两个赛道,包括自动语音识别(ASR)和自动语音日志记录与识别(ASDR),使用字符错误率(CER)和连接最小排列字符错误率(cpCER)作为评估指标。总体上,ICMC-ASR 挑战吸引了 98 支参赛团队,同时在两个赛道上收到了 53 份有效结果。最后,第一名的 USTCiflytek 团队在 ASR 赛道上取得 13.16% 的 CER,并在 ASDR 赛道上取得 21.48% 的 cpCER,与我们的挑战基线相比,在 ASR 方面绝对改进了 13.08%,在 ASDR 方面绝对改进了 51.4%。
Jan, 2024
该论文提出了一种新的流式机器人语音识别框架,用于捕获具有任意几何结构的远程麦克风阵列捕获的多个讲话者的重叠语音,并提出了一种基于 VarArray 和 t-SOT 的新型 t-SOT-VA 框架,其结合了连续语音分离和多讲话者语音识别技术。
Sep, 2022