面向多模态生成的生成人工智能系统影响
文本到图像生成使用神经网络和扩展模型规模的创新模型架构与预测增强技术相结合的方法,提供了几种不同的方法并对其进行了详细比较和评价,为未来的工作提供了改进的可能路径。
Sep, 2023
通过构建多任务模型、保留高保真度的视频本机时空分词器、以及可解释的词汇术语与视觉观察之间的映射,我们的研究证明了多模态潜在空间设计的可行性,并提出了一种优于行业标准编解码器的视频本机时空分词器,从而在视频合成方面实现了语言模型超越扩散模型的首次突破。进一步地,我们的可扩展视觉令牌表示法在生成、压缩和理解任务中都表现出明显的优势。这项研究的成果为未来在生成非文本数据、实现实时互动体验等方面提供了有趣的潜力。
May, 2024
本文介绍了一种新的基于指令训练的大语言模型框架 DirecT2V,该模型可以通过用户提供的单个抽象提示生成一帧帧的视频,并通过新颖的数值映射方法和双 softmax 过滤来维护临时一致性和防止物体折叠。实验结果证明了 DirecT2V 框架在从抽象用户提示中生成视觉上一致和连贯的视频方面的有效性,从而解决了零样本视频生成的挑战。
May, 2023
通过使用网格扩散模型生成视频,我们可以通过固定数量的 GPU 内存生成高质量的视频,减小视频维度从而可以应用各种基于图像的方法,如基于文本的视频操作。我们的方法在定量和定性评估中表现优于现有方法,证明了我们的模型在真实世界中进行视频生成的适用性。
Mar, 2024
提出了一种基于扩散模型的新方法,从文本生成以动态三维物体为中心的高质量多视图视频,通过将问题分解为视点空间和时间组件,并引入对齐模块来保证生成的多视图视频的一致性和连贯性,同时解决了二维和多视图数据之间的领域差异。
Jun, 2024
我们提出了一个概念驱动的文本到图像(TTI)个性化框架,通过学习用户提供的图像示例中的概念,以及一种交替优化过程,进一步改进了现有的 TTI 模型,使其能够生成具有多个交互概念的图像。
Feb, 2024
本研究提出了一种名为 MaxFusion 的新策略,通过合并多个模型的对齐特征,为扩展到新模态条件的基于文本到图像生成模型提供了一个高效的伸缩方法。
Apr, 2024
该论文提出了一种基于轻量级视觉扩散模型和层级扩散概念的视频生成框架,可在有限的计算预算下生成更真实、更长的视频,同时提供了大规模文本到视频生成的扩展应用。
Nov, 2022
基于文本和初始帧,我们引入多模态大型语言模型 (MLLM) 来预测未来的视频状态。通过设计双查询 Transformer (DQFormer) 架构,并利用长短期时间适配器和空间适配器来快速转换通用视频扩散模型,我们的方法在四个数据集上明显优于现有技术,证明了其在不同领域的有效性。
Jun, 2024
通过扩散建模,我们提出了一种基于转换器的 W.A.L.T 方法,用于逼真视频生成。我们采用了两个关键设计决策:一是使用因果编码器在统一的潜在空间中联合压缩图像和视频,实现跨模态的训练和生成;二是为了记忆和训练效率,我们使用了一个针对联合空间和时空生成建模的窗口注意力架构。这些设计决策使我们能够在已知的视频 (UCF-101 和 Kinetics-600) 和图像 (ImageNet) 生成基准上达到最先进的性能,而不使用分类器引导。最后,我们还训练了三个模型的串联,用于文本到视频生成任务,包括基本的潜在视频扩散模型和两个视频超分辨率扩散模型,以每秒 8 帧生成 512 x 896 分辨率的视频。
Dec, 2023