May, 2023

AADiff: 音频对齐视频生成与文本到图像扩散

TL;DR本文介绍了一种新的 T2V 框架,通过引入音频信号来控制时间动态,从而使传统的 T2I 扩散生成可以与音频对齐的视频。我们提出了基于音频的区域编辑和信号平滑方法,以在视频综合的时间灵活性和一致性之间取得良好平衡,并通过实验验证了方法的有效性,并提出了实际应用。