Dec, 2023

MaskINT:通过插值非自回归蒙版变换的视频编辑

TL;DR这项研究通过在文本为基础的视频编辑过程中分为两个阶段,利用现有的文本到图像扩散模型同时编辑一些关键帧,并引入了一种称为 MaskINT 的高效模型,该模型建立在非自回归的掩膜式生成变压器上,在关键帧之间进行帧插值,从中间帧提供的结构指导中受益。我们进行了一系列实验证明了 MaskINT 相对于其他基于扩散模型的方法的有效性和高效性。该研究为基于文本的视频编辑提供了实用的解决方案,并展示了非自回归的掩膜式生成变压器在该领域中的潜力。