Nov, 2022

SMAUG:用于高效视频语言预训练的稀疏掩蔽自编码器

TL;DR研究报告介绍了一个高效的视频语言模型预训练框架 ——SMAUG,该框架采用掩蔽自编码器、时空标记稀疏模块等多种设计,旨在实现视觉和文本模态之间更好的交叉模态对齐、节省更多的预训练成本,并在多个基准测试上具有极高的性能。