Jun, 2024

SViTT-Ego:一种用于自我中心视频的稀疏视频文本变压器

TL;DR通过在 EgoClip 数据集上预训练,采用稀疏自我中心视频文本变换模型 SViTT-Ego,融合了边缘和节点稀疏化,以及友好的自我中心目标 EgoNCE,相对于 LAVILA large,在内部视频 EgoMCQ 上获得了 + 2.8% 的准确度提升,无需额外的数据增强技术,可以在内存有限的设备上预训练。