iVideoGPT: 可扩展世界模型的交互式 VideoGPT

May, 2024

iVideoGPT: 可扩展世界模型的交互式 VideoGPT

iVideoGPT: Interactive VideoGPTs are Scalable World Models

Jialong Wu, Shaofeng Yin, Ningya Feng, Xu He, Dong Li...

TL;DR通过引入 Interactive VideoGPT (iVideoGPT) 框架，可以在实现世界决策过程中，使模型交互地探索、推理和规划。 iVideoGPT 通过将多模态信号（视觉观察，行为和奖励）整合成一系列令牌，实现了通过下一个令牌预测的交互式体验，其中包括一种高效离散化高维视觉观察的新型压缩词汇化技术。借助其可扩展的架构，我们能够在数百万人类和机器人操作轨迹上进行预训练，建立起适用于各种下游任务的多功能基础，其中包括动作条件的视频预测，可视化规划和基于模型的强化学习，并且在与最先进方法相比，iVideoGPT 实现了竞争性的性能。我们的工作推进了交互式通用世界模型的发展，弥合了生成式视频模型和实际模型导向强化学习应用之间的差距。

Abstract

world models empower model-based agents to interactively explore, reason, and plan within imagined environments for real-world decision-making. However, the high demand for interactivity poses challenges in harne

world models interactive videogpt model-based agents autoregressive transformer interactive experience

发现论文，激发创造

WorldGPT: 一个受 Sora 启发的视频 AI 代理，将文本和图像输入作为丰富的世界模型

通过使用基于 Sora 的多模态学习，利用文本提示和相关图像来构建熟练的世界模型框架，该方法在维护时间一致性和确保动作流畅性方面表现出强大的效果和创新性。

Mar, 2024

VideoGPT: 使用 VQ-VAE 和 Transformers 生成视频

VideoGPT 是一种简单的架构，利用 VQ-VAE 学习离散化的原始视频的下采样离散潜在表示，并使用类似于 GPT 的简单架构来自回归地模拟其离散潜在分布，以帮助生成高保真的自然视频。

Apr, 2021

强大的视觉表达学习者：重塑 Image-GPT

本文介绍了 D-iGPT，这是对 image-GPT 进行改进的一种方法，通过将预测目标从原始像素转移到语义标记上，实现对视觉内容的更高级理解，并通过预测可见标记来补充自回归建模，实现了更好的效果。实验证明，D-iGPT 在 ImageNet-1K 数据集上取得了令人瞩目的成绩，并在下游任务中表现出较强的泛化能力和在分布外样本上的鲁棒性。

Dec, 2023

Video-ChatGPT: 通过大型视觉和语言模型实现详细视频理解

介绍了基于视觉编码器与大型语言模型相结合的 Video-ChatGPT 模型，用于理解和生成关于视频的人类对话，并介绍了使用手动和半自动管道获得的新数据集，可用于训练和评估基于视频的对话模型，并在定量评估框架下分析了该模型的优劣。

Jun, 2023

ViD-GPT：在视频扩散模型中引入 GPT 风格的自回归生成

利用巨大语言模型和 GPT，我们将因果生成引入视频扩散模型中，通过引入因果时序注意力和以帧为提示的设计，我们提出了 Video Diffusion GPT（ViD-GPT），能够在生成每个时刻的帧时获取来自之前所有生成帧的长期上下文。通过引入 kv-cache 机制，我们还能够消除重叠帧的冗余计算，显著提高了推理速度。广泛的实验证明，我们的 ViD-GPT 在长视频生成方面在定量和定性上均取得了最先进的性能。

Jun, 2024

VL-GPT：用于视觉与语言理解与生成的生成式预训练 Transformer 模型

VL-GPT 是一种同时感知和生成视觉和语言数据的变压器模型，通过采用直观的自回归目标，实现了图像和文本两种模态的统一预训练方法，从而使模型可以像处理文本一样无缝地处理图像和文本。预训练完成后，VL-GPT 在包括图像字幕生成、视觉问答、文本到图像生成等多样的视觉和语言理解以及生成任务中表现出了令人瞩目的零样本和少样本性能。

Dec, 2023

WorldGPT: 以语言模型为基础的多模态世界模型

构建于多模式大型语言模型（MLLM）之上的通用世界模型 WorldGPT，通过分析各领域的数百万个视频，使其理解世界动态。为了进一步增强 WorldGPT 在专门场景和长期任务中的能力，我们还将其与一种结合了内存卸载、知识检索和上下文反思的新型认知架构进行了集成。通过在涵盖各种现实情境的多模式状态转换预测基准 WorldNet 上进行评估，直接展示了 WorldGPT 准确建模状态转换模式的能力，确认其在理解和预测复杂情境动态方面的有效性。我们进一步探索了 WorldGPT 作为世界模拟器的潜力，通过高效合成多模式指令实例，帮助多模式代理在不熟悉的领域进行泛化，被证明与真实数据一样可靠用于微调目的。项目可在 https://github.com/DCDmllm/WorldGPT 找到。

Apr, 2024

GPT4Video：一种用于指令跟随理解和注重安全生成的统一多模态大型语言模型

GPT4Video 是一个统一的多模型框架，将大型语言模型（LLMs）赋予了视频理解和生成的能力，通过集成基于指令遵循的方法和稳定扩散生成模型，GPT4Video 在视频理解和生成场景中表现出优异的能力，同时保持端到端的安全和健康对话。

Nov, 2023

利用预训练生成语言模型的视频对话

本文提出了一种基于 GPT-2 模型的框架，将视频与文本表示结合成连续、有结构的序列，并利用其 fine-tuning 能力来解决视频对话中的挑战，从而在 Audio-Visual Scene-Aware Dialogues 基准测试中取得了显著的改进。

Jun, 2020

MiniGPT4-Video: 提升多模态 LLM 在视频理解中的能力：交错的视觉 - 文本标记

这篇论文介绍了 MiniGPT4-Video，一种用于视频理解的多模态大型语言模型。该模型能够处理时间视觉和文本数据，从而能够理解视频的复杂性。通过扩展 MiniGPT-v2 模型的能力，该模型能够处理连续的视频帧序列，使其能够理解视频。MiniGPT4-Video 不仅考虑了视觉内容，还结合了文本对话，使得该模型能够有效地回答涉及视觉和文本组成部分的问题。所提出的模型在 MSVD、MSRVTT、TGIF 和 TVQA 基准测试上的性能优于现有的最先进方法，分别提升了 4.22%、1.13%、20.82% 和 13.1%。我们的模型和代码在此网址 https URL 中公开提供。

Apr, 2024