CVPRMar, 2023

AVFormer: 为冻结的语音模型注入视觉信息以实现零样本 AV-ASR

TL;DRAVFormer 是一种简单的方法,使用轻量级可训练的适配器将视觉嵌入注入到冻结的语音识别模型中,并引入了一种培训方案。同时用小量且弱标注视频数据进行培训。实验结果表明,该方法在三个不同的音视频 ASR 基准(How2、VisSpeech 和 Ego4D)上取得了最先进的零 - shot 结果,同时在传统的仅语音识别基准(LibriSpeech)上表现良好。