Jan, 2024

NOTSOFAR-1 挑战:远程会议转录的新数据集、基准和任务

TL;DR引入首个远场音频记录的自然办公室对话者(“NOTSOFAR-1”)挑战,共带来数据集和基准系统。该挑战专注于远距离发言人日记和远场会议情景下的自动语音识别(DASR),并推出两个新的数据集:一是 315 个会议的基准测试数据集,每个会议平均约 6 分钟,捕捉了广泛的真实世界声学环境和对话动态;二是 1000 小时的模拟训练数据集,以增强真实世界泛化的真实性,并融合了 15000 个真实声学传递函数。该研究聚焦于单设备 DASR,在多通道设备的情况下具有相同已知的几何形状,旨在推动远距离对话语音识别领域的研究,为解锁数据驱动方法的潜力提供关键资源。