Jan, 2022
基于 Transformer 的音视频前端技术为单人和多人视频实现语音识别
Transformer-Based Video Front-Ends for Audio-Visual Speech Recognition for Single and Multi-Person Video
Dmitriy Serdyuk, Otavio Braga, Olivier Siohan
TL;DR本文提出使用视频变压器替换三维卷积进行视觉特征提取,从而提高音频 - 视觉自动语音识别的性能,并在大规模的 YouTube 视频语料库以及 LRS3-TED 公共语料库上进行了评估。实验结果表明,该方法在 LRS3-TED 上取得了国际领先的性能表现。另外,在多人音频 - 视觉自动语音识别方面,该方法相对于三维卷积实现了平均降低 2% 的性能损失。