Jun, 2024
SViTT-Ego:一种用于自我中心视频的稀疏视频文本变压器
SViTT-Ego: A Sparse Video-Text Transformer for Egocentric Video
Hector A. Valdez, Kyle Min, Subarna Tripathi
TL;DR通过在 EgoClip 数据集上预训练,采用稀疏自我中心视频文本变换模型 SViTT-Ego,融合了边缘和节点稀疏化,以及友好的自我中心目标 EgoNCE,相对于 LAVILA large,在内部视频 EgoMCQ 上获得了 + 2.8% 的准确度提升,无需额外的数据增强技术,可以在内存有限的设备上预训练。