ICLRJan, 2024

VONet:使用并行的 U-Net 注意力与对象逐帧的序列 VAE 进行无监督视频对象学习

TL;DRVONet 是一种无监督视频物体学习方法,通过采用 U-Net 架构和并行的注意力推理过程生成关注掩模,并利用物体级的顺序 VAE 框架增强每个掩模在连续视频帧上的时间一致性,结合表达丰富的基于变压器的解码器,成为跨五个 MOVI 数据集(包括复杂性不同的视频)的领先无监督物体学习方法。