CVPRMar, 2024

关于辍学引发的韧性研究,对于音频视觉语音识别中缺失视频帧的影响

TL;DR研究了音频 - 视觉语音识别系统对缺失视频帧的敏感性问题,表明在应用 dropout 技术提高对缺失帧的鲁棒性的同时,也导致对完整数据输入性能的损失。通过揭示由于 dropout 引起的对音频存在过多的模态偏差,探究了这一对立现象,同时提出了模态偏差假设(MBH)以系统地描述多模态系统中模态偏差与缺失模态鲁棒性之间的关系。在此基础上,提出了一种新颖的多模态分布近似与知识蒸馏(MDA-KD)框架,可以减少对音频模态的过度依赖,同时维持性能和鲁棒性。最后,为了解决整个模态缺失的问题,采用适配器动态切换决策策略。通过使用 MISP2021 和 MISP2022 数据集进行一系列综合实验评估和验证了我们提出的方法的有效性。