CVPRMar, 2023

通过视觉损坏建模和可靠性评分,实现强大的视听口语识别

TL;DR本文针对音频和视频同时受损的多模态输入情况下的视音频说话人识别问题展开研究,通过分析现有模型的不足并引入多模态输入损坏模型来设计一个稳健的 AVSR 模型框架,即 AV-RelScore,通过可靠性得分确定可靠输入流并提高识别准确度。