Mar, 2022

VPTR 视频预测的高效 Transformer

TL;DR本文提出了一个基于局部时空分离的有效空间 - 时间注意机制的 Transformer 块,用于视频未来帧预测,并构建了一个全自回归视频未来帧预测 Transformer 框架,另外还提出了一个非自回归视频预测 Transformer 框架,并引入对比特征损失来监督模型预测过程。本文是第一个在不同场景下对这两种基于注意力的视频未来帧预测模型进行正式比较的工作,所提出的模型在性能上与更复杂的现有模型竞争力相当。