Jul, 2022

基于视觉感知的音频特征增强,用于稳健的端对端音视频语音识别

TL;DR本文提出了一种噪声强韧的端到端的视听语音识别系统,其中使用视觉背景驱动音频特征增强模块(V-CAFE)通过考虑所获得的视觉背景来生成噪声降低掩模,进而提升音频特征,结合 Conformer 和 Transformer 模型进一步提高了噪声稳健性,并在大型视听数据集 LRS2 和 LRS3 上进行了实验验证。