Jan, 2024

扩散化的通胀:文本到视频超分辨率的高效时态适应

TL;DR我们提出了一种高效的基于扩散的文本到视频超分辨率调试方法,利用像素级图像扩散模型的易学性能够捕捉视频生成的空间信息,为了实现这一目标,我们设计了一个高效的体系结构,将文本到图像超分辨率模型的权重膨胀到我们的视频生成框架中,此外,我们还结合了一个时间适配器以确保视频帧之间的时间一致性,我们研究了基于我们膨胀的体系结构的不同调试方法,并报告了计算成本和超分辨率质量之间的权衡,对 Shutterstock 视频数据集进行的实证评估,无论是定量还是定性评估,都表明我们的方法能够以良好的视觉质量和时间一致性执行文本到视频超分辨率生成,为评估时间一致性,我们还在视频格式中提供了可视化结果。