CVPRDec, 2022

MM-Diffusion:学习多模态扩散模型用于联合音频和视频生成

TL;DR本文介绍了一种基于 Multi-Modal Diffusion 模型,利用两个耦合的自编码器进行序列多模态非线性去噪,提出了一种随机平移注意力块用于跨模态对齐,以实现音视频帧的生成并提高音视频质量