Pandora: 通向自然语言行为和视频状态的通用世界模型

Jun, 2024

Pandora: 通向自然语言行为和视频状态的通用世界模型

Pandora: Towards General World Model with Natural Language Actions and Video States

Jiannan Xiang, Guangyi Liu, Yi Gu, Qiyue Gao, Yuting Ning...

TL;DR通过引入 Pandora，这篇论文通过大规模预训练和指导调节实现了领域通用性、视频一致性和可控性，从而在生成视频、允许实时控制和需要仅轻量级微调的模式下迈向建立更强大的通用世界模型。

Abstract

world models simulate future states of the world in response to different actions. They facilitate interactive content creation and provides a foundation for grounded, long-horizon reasoning. Current foundation models do not fully meet the capabilities of general →

world models pandora hybrid autoregressive-diffusion model pretraining larger-scale training

发现论文，激发创造

WorldGPT: 一个受 Sora 启发的视频 AI 代理，将文本和图像输入作为丰富的世界模型

通过使用基于 Sora 的多模态学习，利用文本提示和相关图像来构建熟练的世界模型框架，该方法在维护时间一致性和确保动作流畅性方面表现出强大的效果和创新性。

Mar, 2024

语言引导的世界模型：一种基于模型的人工智能控制方法

安装概率世界模型到人工智能代理中，为人类与控制这些代理打开了一个高效的交流途径；我们开发了一种名为语言引导的世界模型（LWMs），通过阅读语言描述来捕捉环境动态，提高了代理的通信效率，同时允许人类用简洁的语言反馈在多个任务中同时改变行为。该研究证明了当前最先进的 Transformer 架构在该基准测试上表现不佳，激励我们设计更强大的架构。通过模拟展示了我们提出的 LWMs 的实用性，使代理能够在执行前生成和讨论计划，增强了代理的可解释性和安全性，并使其在真实环境中的性能提高了三倍，而无需在该环境中进行任何交互式经验的收集。

Jan, 2024

WorldDreamer：面向通用视频生成的世界模型预测屏蔽标记

WorldDreamer 是一个创新的全球模型，通过将视觉输入映射为离散标记并预测掩码标记，将世界建模作为无监督的视觉序列建模挑战，实现对一般世界物理和运动的全面理解，并在视频生成方面具有卓越的性能。

Jan, 2024

WorldGPT: 以语言模型为基础的多模态世界模型

构建于多模式大型语言模型（MLLM）之上的通用世界模型 WorldGPT，通过分析各领域的数百万个视频，使其理解世界动态。为了进一步增强 WorldGPT 在专门场景和长期任务中的能力，我们还将其与一种结合了内存卸载、知识检索和上下文反思的新型认知架构进行了集成。通过在涵盖各种现实情境的多模式状态转换预测基准 WorldNet 上进行评估，直接展示了 WorldGPT 准确建模状态转换模式的能力，确认其在理解和预测复杂情境动态方面的有效性。我们进一步探索了 WorldGPT 作为世界模拟器的潜力，通过高效合成多模式指令实例，帮助多模式代理在不熟悉的领域进行泛化，被证明与真实数据一样可靠用于微调目的。项目可在 https://github.com/DCDmllm/WorldGPT 找到。

Apr, 2024

LanGWM: 语言引导的世界模型

通过语言为鲁棒的动作选择增强状态抽象技术，利用语言为基础的视觉特征来改进强化学习中的世界模型学习，提高对于复杂任务中的视觉控制的推广性。

Nov, 2023

世界模型

本研究旨在使用生成神经网络建立流行的强化学习环境下的世界模型，并利用该世界模型进行无监督学习，学习环境的空间和时间紧凑表示。通过使用从世界模型提取的特征作为代理输入，我们可以训练出非常紧凑和简单的策略来解决所需任务。我们甚至可以在代理自己的幻象梦境中完全进行训练，并将该策略传输回实际环境中。

Mar, 2018

Sora 是否是世界模拟器？关于一般世界模型及其拓展的综述

通过综述世界模型的最新进展，该研究探讨了世界模型在视频生成、自动驾驶以及部署在自主代理人中的关键作用，并讨论了其挑战、限制和未来发展方向。

May, 2024

利用世界模型进行紧急通信

引入了一种 Language World Models 的生成式模型，用于预测未来观测的潜在代码，提高了对语言信息的理解能力，进而提高了 2D 栅格世界的语音导航任务的任务成功率。

Feb, 2020

学习基于知识图谱的文本环境世界模型

该论文聚焦于构建基于文本的游戏环境的世界模型，利用知识图谱和自然语言行动生成模型，提升增强学习智能体在该环境下的效率。通过零样本消融实验，表明该方法显著优于现有的文本世界建模技术及其各自贡献的重要性。

Jun, 2021

带有世界知识模型的 Agent 规划

使用大型语言模型作为代理模型来执行交互式规划任务已取得令人称赞的结果。本文引入了参数化的世界知识模型（WKM）来促进代理规划，通过从专家和采样轨迹中自我合成知识，并提供全局任务知识和动态状态知识来指导全局规划和辅助局部规划。实验证明我们的方法在复杂的真实世界模拟数据集上相比强基线能够取得优越性能，减轻了盲目试错和幻觉行为问题，为代理对世界的理解提供了有力支持，同时表明了 WKM 具有更好的泛化性能、弱 WKM 能指导强代理模型的规划，并且统一的 WKM 训练具有进一步发展的潜力。

May, 2024