BriefGPT.xyz
Ask
alpha
关键词
egocentric vision-language models
搜索结果 - 1
SViTT-Ego:一种用于自我中心视频的稀疏视频文本变压器
通过在 EgoClip 数据集上预训练,采用稀疏自我中心视频文本变换模型 SViTT-Ego,融合了边缘和节点稀疏化,以及友好的自我中心目标 EgoNCE,相对于 LAVILA large,在内部视频 EgoMCQ 上获得了 + 2.8%
→
PDF
a month ago
Prev
Next