大型语言模型是零样本文本到视频生成的帧级导演

May, 2023

大型语言模型是零样本文本到视频生成的帧级导演

Large Language Models are Frame-level Directors for Zero-shot Text-to-Video Generation

Susung Hong, Junyoung Seo, Sunghwan Hong, Heeseong Shin, Seungryong Kim

TL;DR本文介绍了一种新的基于指令训练的大语言模型框架 DirecT2V，该模型可以通过用户提供的单个抽象提示生成一帧帧的视频，并通过新颖的数值映射方法和双 softmax 过滤来维护临时一致性和防止物体折叠。实验结果证明了 DirecT2V 框架在从抽象用户提示中生成视觉上一致和连贯的视频方面的有效性，从而解决了零样本视频生成的挑战。

Abstract

In the paradigm of ai-generated content (AIGC), there has been increasing attention in extending pre-trained text-to-image (T2I) models to text-to-video (T2V) generation. Despite their effectiveness, these frameworks face challenges in maintaining consistent narratives and handling rap

ai-generated content text-to-video generation large language models temporal consistency zero-shot video generation

发现论文，激发创造

VideoDirectorGPT: 基于 LLM 引导的一致多场景视频生成

我们提出了 VideoDirectorGPT，这是一个使用 LLMs 知识的生成一致多场景视频的新框架，并通过实验展示了其在布局和运动控制方面的显著改进，同时在单场景和多场景视频生成中实现了场景的视觉一致性。

Sep, 2023

Videoprompter: 零 - shot 视频理解的一组基础模型

本文提出了一种将预训练的判别性视觉 - 语言模型与预训练的生成性视频 - 文本和文本 - 文本模型相结合的框架，在零样本设置中引入了两个关键改进，提高了视觉 - 语言模型的性能，并在视频理解方面展示了一致的改进。

Oct, 2023

BiLL-VTG: 融合大型语言模型和轻量级视觉工具进行基于视频的文本生成

通过使用 BiLL-VTG 框架，结合大型语言模型 (LLMs)、结构化场景图生成和描述性图像标题生成两种视觉工具，通过对特定视频事件进行多次推理步骤，实现对用户指令的文本回复，并通过 InsOVER 算法使用语言指令定位相应的视频事件，从而使 LLMs 能够与长视频进行交互，实验表明该框架优于预训练模型 Flamingo-80B，达到了最先进的性能。

Oct, 2023

零样本文本指导的视频到视频转换

本研究提出了一种基于零样本文本引导的视频到视频转换框架来适应图像模型到视频的应用，在形状、纹理和颜色上强制执行分层的跨帧约束，实现低成本下的全局样式和局部纹理的时空一致性。

Jun, 2023

面向多模态生成的生成人工智能系统影响

对新兴的多模态文本到图像和文本到视频工作负载进行深入的系统性能表征是设计高效和可部署系统的关键第一步。

Dec, 2023

Mini-DALLE3：通过激励大型语言模型实现交互式文本到图像

人工智能内容生成的革命已经通过快速发展的文本到图像（T2I）扩散模型得到了加速。本研究中，我们通过与最新发布的 DALLE3 集成的 T2I 模型 ChatGPT 重新审视现有的 T2I 系统，并引入新的任务 —— 交互式文本到图像（iT2I），人们可以与 LLM（语言模型）进行交互，以生成、编辑、精炼高质量图片，并通过自然语言进行问题回答。通过引入提示技术和现成的 T2I 模型，我们提出了一种简单的方法来增强 LLMs 在 iT2I 上的能力。我们在不同的 LLMs（如 ChatGPT、LLAMA、Baichuan 和 InternLM）下在多种常见场景中评估了我们的方法，证明我们的方法可以方便、低成本地为任何现有 LLMs 和任何文本到图像模型引入 iT2I 功能，同时对 LLMs 在问题回答和代码生成等方面的固有能力造成很小的降低。我们希望本研究能够引起更多关注，并为提升人机交互的用户体验和下一代 T2I 系统的图像质量提供灵感。

Oct, 2023

推导出您的布局：从大型语言模型中归纳出用于文本到图像合成的布局模式

利用大型语言模型作为布局生成器，改进了文本到图像生成模型，通过生成合理的对象布局来增强图像的构图和空间准确性，从而提高了图像质量。

Nov, 2023

利用预训练生成语言模型的视频对话

本文提出了一种基于 GPT-2 模型的框架，将视频与文本表示结合成连续、有结构的序列，并利用其 fine-tuning 能力来解决视频对话中的挑战，从而在 Audio-Visual Scene-Aware Dialogues 基准测试中取得了显著的改进。

Jun, 2020

FlowZero：基于 LLM 驱动的动态场景语法的零样本文本到视频合成

Text-to-video generation using FlowZero, a framework that combines Large Language Models (LLMs) with image diffusion models, achieves improvement in zero-shot video synthesis by generating coherent videos with vivid motion.

Nov, 2023

基于 LLM 的视频扩散模型

在视频生成方面，本研究提出了一种基于文本的扩散模型，通过使用大型语言模型（LLM）生成的动态场景布局来引导视频生成过程，旨在解决现有模型在处理复杂时空提示时遇到的限制和错误运动的问题。实验证明该方法在生成具有所需特征和运动模式的视频方面显著优于基准模型和一些强基线方法。

Sep, 2023