WorldDreamer：面向通用视频生成的世界模型预测屏蔽标记

Jan, 2024

WorldDreamer：面向通用视频生成的世界模型预测屏蔽标记

WorldDreamer: Towards General World Models for Video Generation via Predicting Masked Tokens

Xiaofeng Wang, Zheng Zhu, Guan Huang, Boyuan Wang, Xinze Chen...

TL;DRWorldDreamer 是一个创新的全球模型，通过将视觉输入映射为离散标记并预测掩码标记，将世界建模作为无监督的视觉序列建模挑战，实现对一般世界物理和运动的全面理解，并在视频生成方面具有卓越的性能。

Abstract

world models play a crucial role in understanding and predicting the dynamics of the world, which is essential for video generation. However, existing world models are confined to specific scenarios such as gamin

world models video generation worlddreamer unsupervised visual sequence modeling multi-modal prompts

发现论文，激发创造

DriveDreamer：面向实际驱动的自动驾驶世界模型

DriveDreamer 是第一个从真实世界驾驶场景中建立的世界模型，通过使用扩散模型和两阶段训练流程，能够准确地生成高质量驾驶视频，并捕捉到真实世界交通场景的结构约束。

Sep, 2023

DriveDreamer-2: 增强型世界模型用于多样化驾驶视频生成

DriveDreamer-2 是第一个使用大型语言模型生成定制驾驶视频的世界模型，它可以以用户友好的方式生成不常见的驾驶视频，并通过生成的视频提高驾驶感知方法的训练效果，视频生成质量超过其他最先进的方法，相对改进幅度达 30% 和 50%。

Mar, 2024

通过世界模型掌握多样领域

DreamerV3 是一种基于世界模型的通用、可扩展的算法，具有较好的数据效率和最终性能，在各种单一或混合任务中表现优异，能够解决困扰强化学习发展的一系列挑战。

Jan, 2023

Dropout 的梦幻之地：从学习模拟器到现实的泛化

本研究探索从梦境环境到真实环境的通用方法 Drean2Real。借鉴于领域随机化，结合使用丢失（Dropout）技术，我们使用具有可配置参数的世界模型训练来创建多样的梦境环境，提高控制器从神经网络梦境环境到现实环境转移的能力，并证实了丢失梦幻世界技术是弥合梦境环境和现实环境的差距的有效技术。

Sep, 2021

Pandora: 通向自然语言行为和视频状态的通用世界模型

通过引入 Pandora，这篇论文通过大规模预训练和指导调节实现了领域通用性、视频一致性和可控性，从而在生成视频、允许实时控制和需要仅轻量级微调的模式下迈向建立更强大的通用世界模型。

Jun, 2024

离散世界模型掌握 Atari

DreamerV2 是一种基于 world models 且在离线的训练集上通过 reinforcement learning 进行策略 (即行为) 学习的智能体，用于通过对 compact latent space 进行预测，实现从 Atari 游戏或连续动作任务的图像输入中进行行为学习的高效模型，实现了在 55 个任务中的 human-level 的性能，获得了与 IQN 和 Rainbow 类似的结果。

Oct, 2020

WorldGPT: 以语言模型为基础的多模态世界模型

构建于多模式大型语言模型（MLLM）之上的通用世界模型 WorldGPT，通过分析各领域的数百万个视频，使其理解世界动态。为了进一步增强 WorldGPT 在专门场景和长期任务中的能力，我们还将其与一种结合了内存卸载、知识检索和上下文反思的新型认知架构进行了集成。通过在涵盖各种现实情境的多模式状态转换预测基准 WorldNet 上进行评估，直接展示了 WorldGPT 准确建模状态转换模式的能力，确认其在理解和预测复杂情境动态方面的有效性。我们进一步探索了 WorldGPT 作为世界模拟器的潜力，通过高效合成多模式指令实例，帮助多模式代理在不熟悉的领域进行泛化，被证明与真实数据一样可靠用于微调目的。项目可在 https://github.com/DCDmllm/WorldGPT 找到。

Apr, 2024

DayDreamer: 物理机器人学习的世界模型

本文介绍了 Dreamer 算法在物理机器人上应用的实验，证明了该算法能够使得机器人在真实世界中进行快速学习和适应，同时建立了实际环境下世界模型应用于机器人学习的强基线。

Jun, 2022

WorldGPT: 一个受 Sora 启发的视频 AI 代理，将文本和图像输入作为丰富的世界模型

通过使用基于 Sora 的多模态学习，利用文本提示和相关图像来构建熟练的世界模型框架，该方法在维护时间一致性和确保动作流畅性方面表现出强大的效果和创新性。

Mar, 2024

世界模型

本研究旨在使用生成神经网络建立流行的强化学习环境下的世界模型，并利用该世界模型进行无监督学习，学习环境的空间和时间紧凑表示。通过使用从世界模型提取的特征作为代理输入，我们可以训练出非常紧凑和简单的策略来解决所需任务。我们甚至可以在代理自己的幻象梦境中完全进行训练，并将该策略传输回实际环境中。

Mar, 2018