May, 2019

利用两流深度三维卷积神经网络学习空间 - 时间特征进行唇语识别

TL;DR本研究探讨利用 3D CNN 和光流输入的深度学习模型提高视频字幕的准确性,并证明采用光流输入单独或与灰度视频输入一起能进一步提高性能,在 LRW 数据集上实现了 5.3% 的绝对改进。