CVPRMay, 2021

多角度 LSTM 联合视觉表示学习

TL;DR我们提出了一种新颖的 LSTM 单元结构,能够学习从多个角度捕获的视觉序列中存在的内部和跨视角关系。我们证明,使用所提出的单元来创建神经网络,可以学习有效和更丰富的视觉表示,适用于口型识别和人脸识别等多角度视觉识别任务。我们在三个相关数据集上验证了我们提出的架构的性能,并将结果与融合策略,其他现有的多输入 LSTM 架构和替代识别方案进行了比较。实验表明,我们的解决方案在识别准确性和复杂性方面优于其他方案。