CVPRMar, 2024

TRIP:图像降噪先验的时域残差学习用于图像到视频扩散模型

TL;DR最近在文本到视频生成方面的进展展示了强大的扩散模型的实用性,但是在将扩散模型应用于静态图像转视频生成(即图像到视频生成)时,这个问题并不简单。悬念源于以下方面:连续动画帧的扩散过程不仅应保持与给定图像的忠实对齐,还应追求相邻帧之间的时间一致性。为了缓解这个问题,我们提出了 TRIP,这是一种新的图像到视频扩散范例,它以从静态图像派生的图像噪声先验为基础,通过引入时间残差学习共同触发帧间关系推理,并简化连贯的时间建模。技术上,图像噪声先验首先通过基于静态图像和带噪视频潜在代码的单步向后扩散过程得到。接下来,TRIP 执行类似残差的双路径方案进行噪声预测:1)一条捷径路径,直接将图像噪声先验作为每帧的参考噪声,以增强第一帧与后续帧之间的对齐;2)一条残差路径,使用基于带噪视频和静态图像潜在代码的 3D-UNet 进行帧间关系推理,从而简化每帧噪声的学习。此外,每帧的参考噪声和残差噪声通过注意机制动态合并,用于最终的视频生成。对 WebVid-10M、DTDB 和 MSR-VTT 数据集上进行的大量实验表明了我们 TRIP 在图像到视频生成中的有效性。