MMSep, 2023

视频外绘的分层掩码三维扩散模型

TL;DR视频外延的研究中,我们引入了一种基于遮罩的三维扩散模型,在保持填充区域的时间连续性方面,通过使用遮罩建模技术训练模型,利用多个引导帧连接多个视频剪辑推理结果,确保了时间连续性,并减少相邻帧之间的抖动。另外,我们通过交叉注意力,以全局帧为提示,引导模型获取当前视频剪辑之外的信息。同时,我们还引入了混合的由粗到细的推理流程来缓解伪影积累问题,与现有的只使用填充策略的由粗到细流程不同,我们的流程可以通过遮罩建模的双向学习,在生成稀疏帧时采用填充与插值的混合策略。实验证明我们的方法在视频外延任务中实现了最先进的结果。更多结果请参阅我们的此 URL。