Jan, 2022
CI-AVSR: 一份用于汽车指令识别的粤语音频视觉语音数据集
CI-AVSR: A Cantonese Audio-Visual Speech Dataset for In-car Command Recognition
Wenliang Dai, Samuel Cahyawijaya, Tiezheng Yu, Elham J. Barezi, Peng Xu...
TL;DR本文提出了一个新的中文粤语数据集 - Cantonese In-car Audio-Visual Speech Recognition (CI-AVSR),用于研究车内指令识别。使用视觉和音频数据来识别汽车相关的指令,并采用常见的车内背景噪声进行数据增强来模拟真实环境,同时还实现了两种多模态基线以证明数据集的有效性和可行性。