WorldGPT: 一个受 Sora 启发的视频 AI 代理，将文本和图像输入作为丰富的世界模型

Mar, 2024

WorldGPT: 一个受 Sora 启发的视频 AI 代理，将文本和图像输入作为丰富的世界模型

WorldGPT: A Sora-Inspired Video AI Agent as Rich World Models from Text and Image Inputs

Deshun Yang, Luhui Hu, Yu Tian, Zihao Li, Chris Kelly...

TL;DR通过使用基于 Sora 的多模态学习，利用文本提示和相关图像来构建熟练的世界模型框架，该方法在维护时间一致性和确保动作流畅性方面表现出强大的效果和创新性。

Abstract

Several text-to-video diffusion models have demonstrated commendable capabilities in synthesizing high-quality video content. However, it remains a formidable challenge pertaining to maintaining temporal consistency

text-to-video diffusion models video generation sora-inspired multimodal learning temporal consistency action smoothness

发现论文，激发创造

Sora 作为 AGI 世界模型？关于文本转视频生成的全面调查

文本到视频生成技术的进展与 Sora 模型的发展路径和应用，以及技术挑战与未来改进方向进行全面探讨，旨在促进文本到视频生成领域的创新与讨论。

Mar, 2024

Sora: 大尺度视觉模型的背景、技术、限制和机遇综述

This paper provides a comprehensive review of the Sora text-to-video generative AI model, including its background, applications, challenges, and future directions.

Feb, 2024

Mora: 通过多代理框架实现通用视频生成

该论文介绍了一个名为 Sora 的大规模通用视频生成模型，随后提出了一个新的多智能体框架 Mora，通过多个视觉 AI 代理来复制 Sora 展示的通用视频生成能力，成功模拟了 Sora 在各种任务中的视频生成能力，并希望通过合作的 AI 代理引导未来的视频生成方向。

Mar, 2024

iVideoGPT: 可扩展世界模型的交互式 VideoGPT

通过引入 Interactive VideoGPT (iVideoGPT) 框架，可以在实现世界决策过程中，使模型交互地探索、推理和规划。 iVideoGPT 通过将多模态信号（视觉观察，行为和奖励）整合成一系列令牌，实现了通过下一个令牌预测的交互式体验，其中包括一种高效离散化高维视觉观察的新型压缩词汇化技术。借助其可扩展的架构，我们能够在数百万人类和机器人操作轨迹上进行预训练，建立起适用于各种下游任务的多功能基础，其中包括动作条件的视频预测，可视化规划和基于模型的强化学习，并且在与最先进方法相比，iVideoGPT 实现了竞争性的性能。我们的工作推进了交互式通用世界模型的发展，弥合了生成式视频模型和实际模型导向强化学习应用之间的差距。

May, 2024

Pandora: 通向自然语言行为和视频状态的通用世界模型

通过引入 Pandora，这篇论文通过大规模预训练和指导调节实现了领域通用性、视频一致性和可控性，从而在生成视频、允许实时控制和需要仅轻量级微调的模式下迈向建立更强大的通用世界模型。

Jun, 2024

从索拉所见：文本到视频生成的调查

通过对 Sora 进行文本到视频生成的拆解以及文献综述，我们从不同角度对其进行了全面回顾，总结了人工智能和人工一般智能的发展现状，介绍了常用的数据集和评估指标，并提出了该领域的挑战和未来研究方向。

May, 2024

DoraemonGPT: 面向理解动态场景的大型语言模型

通过大型语言模型驱动的 DoraemonGPT 系统，我们能够处理动态视频任务，利用空间 - 时间查询和推理工具进行简洁而相关的中间结果，同时通过蒙特卡洛树搜索驱动的规划器高效探索大规模计划空间，并以多种解决方案总结出改进的最终答案。在各种复杂问题的评估中，DoraemonGPT 展示了比以往研究更强大的能力。

Jan, 2024

WorldGPT: 以语言模型为基础的多模态世界模型

构建于多模式大型语言模型（MLLM）之上的通用世界模型 WorldGPT，通过分析各领域的数百万个视频，使其理解世界动态。为了进一步增强 WorldGPT 在专门场景和长期任务中的能力，我们还将其与一种结合了内存卸载、知识检索和上下文反思的新型认知架构进行了集成。通过在涵盖各种现实情境的多模式状态转换预测基准 WorldNet 上进行评估，直接展示了 WorldGPT 准确建模状态转换模式的能力，确认其在理解和预测复杂情境动态方面的有效性。我们进一步探索了 WorldGPT 作为世界模拟器的潜力，通过高效合成多模式指令实例，帮助多模式代理在不熟悉的领域进行泛化，被证明与真实数据一样可靠用于微调目的。项目可在 https://github.com/DCDmllm/WorldGPT 找到。

Apr, 2024

Video-ChatGPT: 通过大型视觉和语言模型实现详细视频理解

介绍了基于视觉编码器与大型语言模型相结合的 Video-ChatGPT 模型，用于理解和生成关于视频的人类对话，并介绍了使用手动和半自动管道获得的新数据集，可用于训练和评估基于视频的对话模型，并在定量评估框架下分析了该模型的优劣。

Jun, 2023

通过文本引导的视频生成学习通用策略

通过将序列化决策问题转化为文本条件下的视频生成问题，我们能够推广到新的目标并在不同的环境下进行学习和泛化，从而建立更加通用的智能体。

Jan, 2023