May, 2024

Matten: 基于 Mamba-Attention 的视频生成

TL;DR本文介绍了一种名为 Matten 的先进的潜在扩散模型,采用 Mamba-Attention 架构用于视频生成。Matten 以最小的计算成本,通过空间 - 时间注意力对本地视频内容建模,并通过双向 Mamba 对全局视频内容进行建模。我们的综合实验评估表明,Matten 在基准性能上与当前基于 Transformer 和 GAN 的模型竞争力强,取得了优秀的分数和高效性。此外,我们观察到我们设计模型的复杂性与视频质量提高之间存在直接正相关关系,表明 Matten 具有出色的可扩展性。