May, 2024

视频预测模型作为通用视觉编码器

TL;DR本研究探讨了开源视频条件生成模型作为下游任务的编码器的潜力,重点研究了使用 BAIR 机器人推动数据集进行实例分割。研究人员提出使用视频预测模型作为通用视觉编码器,利用其捕捉关键的时空信息的能力,对实例分割等任务至关重要。受人类视觉研究的启发,尤其是共同命运的格式原则,该方法旨在开发一个能够有效区分前景与背景信息的运动性的潜在空间。研究人员利用一个基于 3D 向量量化变分自编码器(3D VQVAE)的视频生成编码器模型,以输入帧作为条件,并结合下游分割任务。实验涉及对预训练视频生成模型进行自适应,分析它们的潜在空间,并训练用于前景 - 背景分割的自定义解码器。研究结果展示了利用生成式前提学习进行下游任务的有希望结果,为计算机视觉应用中的场景分析和分割工作提供了进展。