Aug, 2023

从不配对的多视角语义对齐中学习以实现自我中心视频识别

TL;DR通过构建跨视角伪 pairs 并利用视频的语义信息进行视图不变性对齐以及进行第一人称和第三人称视频的视频文本对齐,我们提出了基于语义的非配对多视图学习(SUM-L)来解决非配对多视图学习问题。在多个基准数据集上的实验证实了我们的框架的有效性,并且在更具挑战性的场景下,我们的方法也优于现有的视图对齐方法。