Jan, 2022

CI-AVSR: 一份用于汽车指令识别的粤语音频视觉语音数据集

TL;DR本文提出了一个新的中文粤语数据集 - Cantonese In-car Audio-Visual Speech Recognition (CI-AVSR),用于研究车内指令识别。使用视觉和音频数据来识别汽车相关的指令,并采用常见的车内背景噪声进行数据增强来模拟真实环境,同时还实现了两种多模态基线以证明数据集的有效性和可行性。