Jun, 2023

MAVD:首个带深度信息的开放式大规模普通话视听数据集

TL;DR这项工作旨在建立 MAVD,这是一个新的大规模普通话多模态语料库,包括由 64 名中国本土说话者发出的 12,484 个话语,其中包括深度信息,可用于评估音频视觉语音识别的有效性。