Dec, 2023

对比预训练视频优先编码器的简单配方:超过 16 帧

TL;DR我们研究了长时间、真实世界的视频,发现了视频与文本模型的两个限制:空间能力不足和内存消耗过高。通过分析不同的高效方法进行内存 / 准确度权衡,我们发现简单地遮盖视频的大部分内容是扩展编码器的一种最有效方式。我们提出的简单方法,能够训练具有 10 亿参数的长视频到文本模型,并在长时间依赖性基准测试中胜过更大的信息聚合模型。