long video generation | BriefGPT

关键词long video generation

搜索结果 - 4

ViD-GPT：在视频扩散模型中引入 GPT 风格的自回归生成
利用巨大语言模型和 GPT，我们将因果生成引入视频扩散模型中，通过引入因果时序注意力和以帧为提示的设计，我们提出了 Video Diffusion GPT（ViD-GPT），能够在生成每个时刻的帧时获取来自之前所有生成帧的长期上下文。通过引
PDF20 days ago
StreamingT2V：基于文本的一致、动态、可扩展长视频生成
通过 StreamingT2V 方法，可以实现高质量的长视频生成，该方法采用文本到视频扩散模型并引入条件注意模块，具有一致性和高运动量。
PDF4 months ago
ART・V: 基于扩散模型的自回归文本到视频生成
ART・V 是一个高效的自回归视频生成框架，使用扩散模型逐帧生成视频，并通过简化连续帧之间的运动来避免建模复杂的远程运动，同时保留预训练图像扩散模型的高保真生成能力。通过结合文本、图像等多种提示，ART・V 可以生成任意长度的视频，具有高度
PDF7 months ago
NUWA-XL: 通过扩散生成器技术实现极长视频的生成
提出了 NUWA-XL—— 一种采用 “粗略到精细” 生成过程的视频生成模型，其中采用全局扩散模型生成整个时间范围内的关键帧，然后采用本地扩散模型递归地填充附近帧之间的内容，可以直接训练长视频（3376 帧），降低了训练和推理之间的差距，并
PDFa year ago