May, 2022

长视频的灵活扩散建模

TL;DR本研究提出了一种基于去噪扩散概率模型的视频建模框架,可在各种真实环境下生成长时间视频,并介绍了一种适用于此目的的架构,可有效比较和优化采样顺序,并对以前采样的帧使用选择性稀疏和长程调节。实验结果表明,在多个数据集上相较于现有工作获得了更好的视频建模,并生成了长达 25 分钟的时间连贯视频。研究还发布了一个基于 CARLA 自动驾驶模拟器生成视频构建数据集和具有语义意义的度量。