May, 2023

VideoFactory: 基于时空扩散的交换注意力机制用于文本到视频生成

TL;DRVideoFactory 是一种通过使用 swapped cross-attention mechanism 从而加强空间和时间相互感知的方法,并借助大规模的 HD-VG-130M 视频数据集,实现生成无水印、高清晰度、通用领域的视频。研究结果表明,该方法在单帧质量、时间相关性和文本视频对齐方面具有明显优势。