ART・V: 基于扩散模型的自回归文本到视频生成

Nov, 2023

ART・V: 基于扩散模型的自回归文本到视频生成

ART$\boldsymbol{\cdot}$V: Auto-Regressive Text-to-Video Generation with Diffusion Models

Wenming Weng, Ruoyu Feng, Yanhui Wang, Qi Dai, Chunyu Wang...

TL;DRART・V 是一个高效的自回归视频生成框架，使用扩散模型逐帧生成视频，并通过简化连续帧之间的运动来避免建模复杂的远程运动，同时保留预训练图像扩散模型的高保真生成能力。通过结合文本、图像等多种提示，ART・V 可以生成任意长度的视频，具有高度的多功能性和灵活性。通过引入掩蔽扩散模型和使用初始帧作为条件，ART・V 进一步提升了生成一致性和生成的视觉质量，能够在短时间内生成带有自然运动、丰富细节和高美感的视频，并支持多个文本提示组合成长视频的应用。

Abstract

We present ART$\boldsymbol{\cdot}$V, an efficient framework for auto-regressive video generation with diffusion models. Unlike existing methods that generate entire videos in one-shot, ART$\boldsymbol{\cdot}$V ge

auto-regressive video generation diffusion models continual motions masked diffusion model long video generation

发现论文，激发创造

文本到视频生成的网格扩散模型

通过使用网格扩散模型生成视频，我们可以通过固定数量的 GPU 内存生成高质量的视频，减小视频维度从而可以应用各种基于图像的方法，如基于文本的视频操作。我们的方法在定量和定性评估中表现优于现有方法，证明了我们的模型在真实世界中进行视频生成的适用性。

Mar, 2024

AR-Diffusion: 自回归扩散模型用于文本生成

介绍了一种新的生成文本的方法 - 自回归扩散 (AR-Diffusion)，它通过引入动态去噪步骤来解决自然语言中的顺序依赖问题，在各种文本生成任务中表现优异。

May, 2023

ViD-GPT：在视频扩散模型中引入 GPT 风格的自回归生成

利用巨大语言模型和 GPT，我们将因果生成引入视频扩散模型中，通过引入因果时序注意力和以帧为提示的设计，我们提出了 Video Diffusion GPT（ViD-GPT），能够在生成每个时刻的帧时获取来自之前所有生成帧的长期上下文。通过引入 kv-cache 机制，我们还能够消除重叠帧的冗余计算，显著提高了推理速度。广泛的实验证明，我们的 ViD-GPT 在长视频生成方面在定量和定性上均取得了最先进的性能。

Jun, 2024

用于生成高保真长视频的潜在视频扩散模型

该论文提出了一种基于轻量级视觉扩散模型和层级扩散概念的视频生成框架，可在有限的计算预算下生成更真实、更长的视频，同时提供了大规模文本到视频生成的扩展应用。

Nov, 2022

ARTIST: 复杂文本图像生成的解耦改进

通过引入一个专门关注文本学习的新框架 ARTIST，有助于提升扩散模型在生成富文本图像时的文本渲染能力，并利用预训练的大型语言模型来解释用户意图，提高生成质量。在 MARIO-Eval 基准测试上的实证结果表明，该方法在各种度量标准上的性能提升达到了 15%。

Jun, 2024

文本到图像的向量量化扩散模型

本论文提出了基于矢量量化扩散模型的文本到图像生成方法，在扩散条件变量程序模型的潜在空间中建模基于矢量量化变分自编码器的方法，消除了现有方法中的单向偏差，并允许我们结合掩模和替换扩散策略以避免误差积累，其结果在生成复杂场景的图像方面得到了显着的改进。

Nov, 2021

StreamingT2V：基于文本的一致、动态、可扩展长视频生成

通过 StreamingT2V 方法，可以实现高质量的长视频生成，该方法采用文本到视频扩散模型并引入条件注意模块，具有一致性和高运动量。

Mar, 2024

自回归视频模型的扩展

通过在 Kinetics 数据集上训练基于三维自注意机制的自回归视频生成模型，我们展示了这种概念简单的方法在产生高保真、逼真度更高的视频方面具有竞争力。

Jun, 2019

AADiff: 音频对齐视频生成与文本到图像扩散

本文介绍了一种新的 T2V 框架，通过引入音频信号来控制时间动态，从而使传统的 T2I 扩散生成可以与音频对齐的视频。我们提出了基于音频的区域编辑和信号平滑方法，以在视频综合的时间灵活性和一致性之间取得良好平衡，并通过实验验证了方法的有效性，并提出了实际应用。

May, 2023

YaART：又一种 ART 渲染技术

YaART 是一种有效且高保真度的产业级文本到图像扩散模型，通过强化学习从人类反馈中对齐到人类偏好。在开发 YaART 过程中，我们特别关注模型和训练数据集大小的选择，这些方面在文本到图像扩散模型中以前没有系统地进行研究。特别是，我们全面分析了这些选择如何影响训练过程的效率和生成图像的质量，这在实践中非常重要。此外，我们证明了在高质量图像的较小数据集上训练的模型能够成功与在较大数据集上训练的模型竞争，建立了更高效的扩散模型训练场景。从质量的角度来看，YaART 始终优于许多现有的最先进模型。

Apr, 2024