CVPRMar, 2021

基于语义注意力的视频指称理解中的共同基础网络

TL;DR本文探讨了视频中指代表达理解的问题,并提出了一种新的视角,即协同基础,通过语义关注学习提高单帧基础的准确性,并通过协同基础的特征学习提高跨帧基础的一致性。实验结果表明,该框架在视频基础数据集 VID 和 LiOTB 上生成了准确且稳定的结果,并且在 RefCOCO 数据集上的表现也得到了改善。