Nov, 2022
SMAUG:用于高效视频语言预训练的稀疏掩蔽自编码器
SMAUG: Sparse Masked Autoencoder for Efficient Video-Language Pre-training
Yuanze Lin, Chen Wei, Huiyu Wang, Alan Yuille, Cihang Xie
TL;DR研究报告介绍了一个高效的视频语言模型预训练框架 ——SMAUG,该框架采用掩蔽自编码器、时空标记稀疏模块等多种设计,旨在实现视觉和文本模态之间更好的交叉模态对齐、节省更多的预训练成本,并在多个基准测试上具有极高的性能。