May, 2023

使用 Transformer 的视频传播经验研究

TL;DR本研究介绍了 Video Diffusion Transformer(VDT),它首次在基于扩散的视频生成中提出了 Transformer 的使用,通过模块化的时间和空间注意机制实现了 Transformer 块,并能够通过简单的令牌空间串联实现灵活的条件信息,VDT 的模块化设计促进了一种时空解耦的训练策略,其在视频生成、预测和动力学建模(即基于物理的 QA)任务上,包括自动驾驶,人类行动和基于物理模拟等领域的应用,表现出了出色的性能。