基于结构化状态空间的高效视频生成：SSM 遇见视频扩散模型

ICLRMar, 2024

基于结构化状态空间的高效视频生成：SSM 遇见视频扩散模型

SSM Meets Video Diffusion Models: Efficient Video Generation with Structured State Spaces

Yuta Oshima, Shohei Taniguchi, Masahiro Suzuki, Yutaka Matsuo

TL;DR基于扩散模型，我们提出利用状态空间模型进行视频生成，以解决注意力机制对内存的消耗随序列长度增加而呈二次增长的限制，并通过实验证明在更长的视频序列生成中，我们的基于状态空间模型的方法能够显著节省内存消耗同时保持与基于注意力模型竞争力的结果。

Abstract

Given the remarkable achievements in image generation through diffusion models, the research community has shown increasing interest in extending these models to video generation. Recent →

image generation diffusion models video generation state-space models attention layers

发现论文，激发创造

利用结构化状态空间高效建模长序列

提出了一种结构化状态空间序列模型（S4），它在处理长依赖序列数据方面与传统模型相比有着更好的结果，通过调整状态矩阵可以将模型计算复杂度降低，达到了 SOTA 水平。

Oct, 2021

事件相机的状态空间模型

通过引入具有可学习时间尺度参数的状态空间模型（SSM）来处理事件感测器数据，解决了在不同频率下部署模型的挑战，并且与传统 RNN 和 Transformer 模型相比，SSM 模型在事件感测任务中训练速度更快，且在更高频率的测试输入下表现出较小的性能降低。

Feb, 2024

用于新一代网络替代 Transformer 的状态空间模型：概述

在这篇论文中，我们首次全面回顾了 State Space Model（SSM）作为自注意力基础的 Transformer 模型的特性和优势，并提供了实验比较和分析。此外，我们还研究了 SSM 在自然语言处理和计算机视觉等多个领域的应用，并提出了未来研究的方向，希望能推动 SSM 在理论模型和应用方面的发展。

Apr, 2024

为长形视频理解选择性结构状态空间

本论文提出了一种轻量级掩膜生成器的技术，采用长短掩膜对 S4 模型进行改进，从而更有效、准确地模拟视频中的长期时空依赖关系，并在三个数据集上均取得了比之前最先进的 S4 模型更高的准确性，降低了 23％的内存占用。

Mar, 2023

时态图上的状态空间模型：第一原理研究

本研究通过将结构信息整合到在线逼近目标中，采用拉普拉斯正则化项，将状态空间模型理论扩展到时间图，提出了 GraphSSM 框架，用于建模时间图的动态性，实验证明 GraphSSM 在各种时间图基准测试中的有效性。

Jun, 2024

用于生成高保真长视频的潜在视频扩散模型

该论文提出了一种基于轻量级视觉扩散模型和层级扩散概念的视频生成框架，可在有限的计算预算下生成更真实、更长的视频，同时提供了大规模文本到视频生成的扩展应用。

Nov, 2022

槽位状态空间模型

我们介绍了一种新颖的框架 SlotSSMs，用于在状态空间模型中引入独立机制以保持或促进信息的分离，评估表明我们的设计在多对象建模和长期时间依赖性的任务中显著提高了性能。

Jun, 2024

StoryDiffusion: 长距离图像和视频生成的一致性自注意力

通过引入一种新的自我关注计算方式（Consistent Self-Attention），以及引入一种语义空间时间运动预测模块（Semantic Motion Predictor），本文提出了一种名为 StoryDiffusion 的框架，能够生成包含丰富内容的一致图像或视频，用来描述基于文本的故事。

May, 2024

S2DM: 视频生成的扇形扩散模型

我们提出了一种新颖的扇形扩散模型（S2DM），通过一组从相同噪声点开始的射线状反扩散过程形成的扇形扩散区域，S2DM 可以生成一组具有相同语义和随机特征的内在相关数据，但在时间特征上有适当的引导条件所变化。我们将 S2DM 应用于视频生成任务，并探索了光流作为时间条件的使用。实验结果表明，S2DM 在视频生成任务中的表现优于许多现有方法，而不需要任何时间特征建模模块。对于文本到视频生成任务，在没有明确给定时间条件的情况下，我们提出了一种两阶段生成策略，可以将时间特征的生成与语义内容特征的生成分离开来。我们展示了在没有额外训练的情况下，将我们的模型与另一个时间条件生成模型集成仍然可以达到与现有作品相当的性能。

Mar, 2024

高效的图像去模糊视觉状态空间模型

本文提出了一种简单而有效的视觉状态空间模型（EVSSM）用于图像去模糊，在图像恢复任务中，相比卷积神经网络（CNNs）和视觉 Transformer（ViTs），EVSSM 相对于其它方法在基准数据集和真实捕捉的图像上表现出色。

May, 2024