Jun, 2022

MaskViT: 视频预测的掩蔽视觉预训练

TL;DR本研究展示通过基于遮蔽视觉建模的 Transformer 预训练可以创建良好的视频预测模型,且仅需最少领域知识即可赋予具有强大预测模型的实体智能体。