Sora 是否是世界模拟器？关于一般世界模型及其拓展的综述

May, 2024

Sora 是否是世界模拟器？关于一般世界模型及其拓展的综述

Is Sora a World Simulator? A Comprehensive Survey on General World Models and Beyond

Zheng Zhu, Xiaofeng Wang, Wangbo Zhao, Chen Min, Nianchen Deng...

TL;DR通过综述世界模型的最新进展，该研究探讨了世界模型在视频生成、自动驾驶以及部署在自主代理人中的关键作用，并讨论了其挑战、限制和未来发展方向。

Abstract

General world models represent a crucial pathway toward achieving Artificial General Intelligence (AGI), serving as the cornerstone for various applications ranging from virtual environments to decision-making systems. Recently, the emergence of the →

world models sora model generative methodologies video generation autonomous-driving world models

发现论文，激发创造

Sora 作为 AGI 世界模型？关于文本转视频生成的全面调查

文本到视频生成技术的进展与 Sora 模型的发展路径和应用，以及技术挑战与未来改进方向进行全面探讨，旨在促进文本到视频生成领域的创新与讨论。

Mar, 2024

Sora: 大尺度视觉模型的背景、技术、限制和机遇综述

This paper provides a comprehensive review of the Sora text-to-video generative AI model, including its background, applications, challenges, and future directions.

Feb, 2024

从索拉所见：文本到视频生成的调查

通过对 Sora 进行文本到视频生成的拆解以及文献综述，我们从不同角度对其进行了全面回顾，总结了人工智能和人工一般智能的发展现状，介绍了常用的数据集和评估指标，并提出了该领域的挑战和未来研究方向。

May, 2024

WorldGPT: 一个受 Sora 启发的视频 AI 代理，将文本和图像输入作为丰富的世界模型

通过使用基于 Sora 的多模态学习，利用文本提示和相关图像来构建熟练的世界模型框架，该方法在维护时间一致性和确保动作流畅性方面表现出强大的效果和创新性。

Mar, 2024

自动驾驶的世界模型：初步调查

在自动驾驶领域中，世界模型的能力是重要的，既可以确保安全性和效率性，还能关键性地帮助决策过程，通过合成和解释大量的传感器数据，从而预测潜在的未来情景并弥补信息缺失。本文回顾了自动驾驶领域中当前状态和世界模型的前景发展，包括其理论基础、实际应用以及正在进行的研究努力以克服现有的限制。突出世界模型在推进自动驾驶技术中的重要作用，本综述旨在为研究社区提供基础参考，便于快速获得对这一新兴领域的理解，并激发持续的创新和探索。

Mar, 2024

GAIA-1: 自动驾驶的生成式世界模型

GAIA-1 ('Generative AI for Autonomy') 是一个生成性世界模型，利用视频、文本和动作输入生成逼真的驾驶场景，同时提供对自我车辆行为和场景特征的细粒度控制，通过将输入映射为离散标记并预测序列中的下一个标记来解决了在自动驾驶过程中有效预测可能出现的各种结果的挑战。该模型通过捕捉未来事件的预期和生成逼真样本的能力，提供了在自动驾驶技术领域创新的新可能性，实现了自动驾驶技术的增强和加速训练。

Sep, 2023

世界模型

本研究旨在使用生成神经网络建立流行的强化学习环境下的世界模型，并利用该世界模型进行无监督学习，学习环境的空间和时间紧凑表示。通过使用从世界模型提取的特征作为代理输入，我们可以训练出非常紧凑和简单的策略来解决所需任务。我们甚至可以在代理自己的幻象梦境中完全进行训练，并将该策略传输回实际环境中。

Mar, 2018

Pandora: 通向自然语言行为和视频状态的通用世界模型

通过引入 Pandora，这篇论文通过大规模预训练和指导调节实现了领域通用性、视频一致性和可控性，从而在生成视频、允许实时控制和需要仅轻量级微调的模式下迈向建立更强大的通用世界模型。

Jun, 2024

Mora: 通过多代理框架实现通用视频生成

该论文介绍了一个名为 Sora 的大规模通用视频生成模型，随后提出了一个新的多智能体框架 Mora，通过多个视觉 AI 代理来复制 Sora 展示的通用视频生成能力，成功模拟了 Sora 在各种任务中的视频生成能力，并希望通过合作的 AI 代理引导未来的视频生成方向。

Mar, 2024

Sora 以惊人的几何一致性生成视频

通过将生成的视频转化为 3D 模型，以 3D 重建的准确性作为衡量标准，本文提出了一种用于评估生成视频质量的基于真实世界物理规则的新基准方法。

Feb, 2024