Mar, 2022

Transframer:用生成模型进行任意帧预测

TL;DR通过概率性的图像模型,我们提出了一个通用的图像建模和视觉任务框架,该框架统一了广泛的任务,包括图像分割、新视角合成和视频插值。我们采用一种称为Transframer的结构来配对这个框架,它使用U-Net和Transformer组件对标注上下文帧进行条件,并输出稀疏压缩图像特征序列,而且Transframer能够在各种视频生成基准测试中超越最强的挑战者,在少样本视角合成方面具有竞争力,甚至可以从单个图像生成连贯的30秒视频而不需要任何明确的几何信息。在没有任务特定架构组件的情况下,一个多才多艺的Transframer可以同时在8个任务中产生有希望的结果,包括语义分割、图像分类和光流预测,这表明可以使用概率图像模型来处理多任务计算机视觉。我们的方法原则上可以应用于需要学习标注图像格式数据的条件结构的广泛应用。