Mar, 2020

我们能够从嘴唇以外的地方阅读言语吗?重新思考深度视觉言语识别中的 ROI 选择

TL;DR本文主要介绍了使用深度学习进行视觉语音识别研究的新进展,并对较为传统的自动唇读方法提出挑战。作者试图证明在读取到口唇之外的区域,如脸颊、全脸等位置的信息,对于提高 VSR 模型性能有明显的好处。同时,介绍了一种基于 Cutout 的简单而有效的方法,以更好地利用不同面部区域编码的信息。实验表明,这些更大的面部区域信息能有效提高 VSR 性能,为 VSR 社区带来新思考。