Jan, 2022

基于 Transformer 的音视频前端技术为单人和多人视频实现语音识别

TL;DR本文提出使用视频变压器替换三维卷积进行视觉特征提取,从而提高音频 - 视觉自动语音识别的性能,并在大规模的 YouTube 视频语料库以及 LRS3-TED 公共语料库上进行了评估。实验结果表明,该方法在 LRS3-TED 上取得了国际领先的性能表现。另外,在多人音频 - 视觉自动语音识别方面,该方法相对于三维卷积实现了平均降低 2% 的性能损失。