May, 2023

MD3: 多方言对话数据集

TL;DR本文介绍了一个新的跨方言语音数据集,用于英语印度、尼日利亚和美国口音。该数据集通过提示参与者执行一系列短的信息分享任务来平衡开放式对话和面向任务的对话,以促进量化的跨方言比较,并避免对方言特征表现的限制性任务结构的强制性。初步分析表明该数据集在语法和话语标记的使用上有显着差异。该数据集包括超过 20 个小时的音频和超过 200,000 个正字法转录的标记,并已公开发布。