Sync-DRAW:使用深层循环注意架构自动生成视频
本文提出了Deep Recurrent Attentive Writer(DRAW)神经网络架构,用于图像生成。DRAW网络结合了模仿人眼视觉聚焦的一种新颖空间注意机制,以及允许迭代构建复杂图像的顺序变分自编码框架。该系统在MNIST上的生成模型技术上显著改进,并且当在街景房屋数字数据集上进行训练时,生成的图像与真实数据的区别无法用肉眼区分。
Feb, 2015
本研究收集了10万个GIF图像,并基于众包技术获取了120k自然语言描述,以促进对动态图像的理解和自然语言描述生成技术的研究,该研究提供了一个理想的基准来评估视觉内容字幕的任务。研究还提供了基于最近邻算法、统计机器翻译和递归神经网络的动态gif描述任务的基线结果,并证明使用该数据集微调的模型对于自动电影描述是有帮助的。
Apr, 2016
本文提出了一种利用用户生成的GIF内容自动生成GIF的方法,并提出了一种Robust Deep RankNet,用于根据suitability生成video的ranked list。在大量的用户生成数据上,本模型可识别出流行的GIF模式并具有鲁棒性(robust)和较高的准确度(advantage)。
May, 2016
本文提出了一种基于递归模型的图像生成方法,可以根据过去的指令以及当前的反馈生成背景,添加新对象,并对现有对象进行简单的变换,这是交互式生成的一个重要步骤。
Nov, 2018
FlashVideo是一种新颖框架,通过使用RetNet架构,将序列长度为L的推理时间复杂度从O(L^2)降低到O(L),从而显著加快推理速度,并且通过抛弃冗余帧插值方法来增强帧插值的效率,实现了相对传统自回归转换模型的9.17倍效率提升,并且推理速度与基于BERT的转换模型相当。
Dec, 2023
Lumiere是一种文本到视频扩散模型,用于综合描绘逼真、多样和连贯的运动,在视频合成中是一个关键的挑战。通过引入空时U-Net架构,我们一次性地生成整个视频的时间持续性,与现有的合成关键帧和时间超分辨率的视频模型相比,我们的设计更容易实现全局时间一致性。我们展示了最先进的文本到视频生成结果,并表明我们的设计能够轻松支持广泛的内容创作任务和视频编辑应用,包括图像到视频、视频修复和风格生成。
Jan, 2024
我们提出了Pix2Gif,一种用于图像到GIF(视频)生成的运动引导扩散模型。通过将任务表述为由文本和运动幅度提示引导的图像转换问题,我们以不同的方式解决了这个问题。为了确保模型遵循运动引导,我们提出了一种新的运动引导变形模块,以在两种提示的条件下空间转换源图像的特征。此外,我们引入了一个感知损失,确保变换后的特征图与目标图像保持相同的空间,以确保内容的一致性和连贯性。在模型训练准备阶段,我们通过从TGIF视频标题数据集中提取一致的图像帧来精心筛选数据,该数据集提供了关于主题的时序变化的丰富信息。在预训练之后,我们以零样本的方式将我们的模型应用于多个视频数据集。广泛的定性和定量实验证明了我们的模型的有效性-它不仅捕捉了文本的语义提示,还捕捉了运动引导的空间提示。我们使用一个16xV100 GPU节点训练所有模型。代码、数据集和模型在此https URL中公开。
Mar, 2024
图像研究中,我们引入了动态视觉刺激生成框架的Spaciotemporal Style Transfer算法,它基于双流深度神经网络模型,能够生成与自然视频的低级时空特征匹配的模型变形器,缺乏高级语义特征,成为研究对象识别的有力范例。
Mar, 2024
通过引入GTN概念,我们提出了一种名为VSTAR的方法,通过自动化生成视频摘要和时间注意力正则化技术,以改善T2V模型在生成长视频时的动态性,并实验证明了我们的方法在生成较长且具有视觉吸引力的视频方面的优越性。
Mar, 2024
通过同步多个扩散过程,我们引入了一个生成多样化视觉内容(包括模糊图像、全景图像、网格纹理和高斯斑点纹理)的通用框架,并通过一个标准空间对同步多个扩散过程的所有可能情况进行了详尽研究,并分析了它们在各种应用中的特点。在此过程中,我们揭示了一个以往未曾探索的情况:在多实例空间中进行去噪并对 Tweedie's 公式的输出取平均。这种情况提供了与下游任务的最广泛适用性相比最好的质量。我们将这种情况命名为 SyncTweedies。在我们生成上述视觉内容的实验中,我们证明了 SyncTweedies 相对于其他同步方法(基于优化和基于迭代更新的方法)的生成质量更高。
Mar, 2024