BriefGPT.xyz
Ask
alpha
关键词
video-language foundation models
搜索结果 - 1
通过高效的后预训练来获取视频基础模型
我们提出了一种从图像模型中收集视频基础模型的有效框架,方法简单直观,通过随机删除输入视频补丁和屏蔽输入文本来显著提高训练效率,并强化跨模态融合的学习,该方法在多种视频语言下游任务中取得了顶尖性能,具有极高的效率,只需要 WebVid-10M
→
PDF
8 months ago
Prev
Next