- 从高效多模型到世界模型:一项调研
多模态大模型(MLMs)是一个重要的研究重点,通过将强大的大型语言模型与多模态学习相结合,对不同的数据模态执行复杂任务。本文综述了 MLMs 的最新发展和挑战,强调它们在实现人工通用智能和作为世界模型路径中的潜力。我们概述了关键技术,如多模 - ICML具有上下文感知标记化的高效世界模型
通过构建 Delta-IRIS,一个世界模型结构,利用离散自编码器和自回归变换器来预测未来时间步的变化量,本研究在 Crafter 基准测试中取得了新的最高水平,而且训练速度比以前的基于注意力的方法快一个数量级。
- 多模态基于世界模型的通用型智能体
通过引入多模态基础世界模型,GenRL 代理学习框架能够将基础视觉语言模型的表示与生成式世界模型的潜在空间连接和对齐,从而克服了现有基础视觉语言模型在不同领域上的问题,并在多个运动和操作领域展现了强大的多任务泛化性能。此外,通过引入无数据强 - UniZero: 通用高效规划与可扩展潜在世界模型
UniZero 是一种基于 Transformer 的新增方法,通过解耦潜在状态和历史信息,能够更好地捕捉长期依赖关系,提供了更加广泛和高效的潜在空间规划,相比 MuZero-style 算法在 Atari 100k 基准测试中表现更好,且 - 条件图像生成模型的一致性 - 多样性 - 现实性 Pareto 前沿
构建准确全面地代表真实世界的世界模型是有条件的图像生成模型的最高追求,本文使用最新的文本到图像和图像到图像的模型及其问题来绘制一种提供严谨保守性,多样性和真实性多目标的一体化视图的一致性 - 多样性 - 真实性 Pareto 前沿,我们的实 - 认知启示的能量基世界模型
通过训练基于能量的世界模型,我们引入了一种能够模拟人类认知的方法,其通过预测上下文和未来状态的兼容性来解决传统的自回归模型的局限性,并展示了在计算机视觉和自然语言处理中的潜在应用。
- Pandora: 通向自然语言行为和视频状态的通用世界模型
通过引入 Pandora,这篇论文通过大规模预训练和指导调节实现了领域通用性、视频一致性和可控性,从而在生成视频、允许实时控制和需要仅轻量级微调的模式下迈向建立更强大的通用世界模型。
- 评估生成模型中的世界模型
大型语言模型潜在学习世界模型的研究及其评估方法和度量标准的提出,揭示了现有生成模型在评估世界模型的经典诊断上表现良好,但度量标准揭示了其世界模型的内在不连贯性和脆弱性,并提出新的评估方法以实现更接近真实逻辑的生成模型。
- Vista:一个具有高度真实和多功能可控性的通用驾驶世界模型
通过系统诊断现有方法的不足,我们提出了具有高保真度和灵活可控性的可扩展驾驶世界模型 Vista,利用新的损失函数促进移动实例和结构信息的学习,并通过有效的潜在替代方法注入历史帧作为前提进行连贯的长程预测。此外,我们利用 Vista 本身的能 - iVideoGPT: 可扩展世界模型的交互式 VideoGPT
通过引入 Interactive VideoGPT (iVideoGPT) 框架,可以在实现世界决策过程中,使模型交互地探索、推理和规划。 iVideoGPT 通过将多模态信号(视觉观察,行为和奖励)整合成一系列令牌,实现了通过下一个令牌预 - MuDreamer: 无需重建学习预测性世界模型
MuDreamer 是一种强大的强化学习代理,它在 DreamerV3 算法的基础上通过学习一种无需重建输入信号的预测世界模型,改善了 Dreamer 在面对视觉干扰时感知关键元素的能力。
- 世界建模的扩散:Atari 中的视觉细节至关重要
DIAMOND 是一种在扩散世界模型中训练的强化学习代理,通过改进视觉细节来提高代理性能,取得了在 Atari 100k 基准测试上的新最佳表现。
- 全球知识要素(EWOK):一种受认知启发的框架,用于评估语言模型中的基本世界知识
使用 Elements of World Knowledge (EWOK) 框架和 EWOK-CORE-1.0 数据集,对 20 个开源的大型语言模型进行评估,发现这些模型在世界建模能力上比人类表现差异较大,从而提供了研究大型语言模型的世界 - 探究多模态 LLMs 作为驾驶世界模型
我们评估了多模态大型语言模型(MLLMs)在自动驾驶领域的应用,并挑战和验证了一些常见假设,重点关注它们在封闭环控制环境下通过图像 / 帧序列来推理和解释动态行驶情景的能力。我们的研究揭示了这些模型在预测复杂、动态的驾驶环境中存在的不足,对 - Sora 是否是世界模拟器?关于一般世界模型及其拓展的综述
通过综述世界模型的最新进展,该研究探讨了世界模型在视频生成、自动驾驶以及部署在自主代理人中的关键作用,并讨论了其挑战、限制和未来发展方向。
- WorldGPT: 以语言模型为基础的多模态世界模型
构建于多模式大型语言模型(MLLM)之上的通用世界模型 WorldGPT,通过分析各领域的数百万个视频,使其理解世界动态。为了进一步增强 WorldGPT 在专门场景和长期任务中的能力,我们还将其与一种结合了内存卸载、知识检索和上下文反思的 - 通过世界模型进行延迟观察的强化学习
在标准强化学习设置中,通过立即获得行为后效果的反馈是常见的假设;然而,由于物理限制,在实践中这种假设可能并不成立,可能严重影响强化学习算法的性能。本文关注部分可观测环境中观察延迟的处理。我们提出利用过去观测和学习动态的世界模型来处理观察延迟 - 3D-VLA:一个基于三维视觉 - 语言 - 动作的生成式世界模型
提出了一种基于 3D 感知、推理和行动的生成世界模型的 3D-VLA 模型,通过引入一系列交互令牌与具体环境进行交互,训练一系列融入大规模 3D 语言模型的生成扩散模型以预测目标图像和点云,并在大规模数据集上的实验中展示了 3D-VLA 在 - DriveDreamer-2: 增强型世界模型用于多样化驾驶视频生成
DriveDreamer-2 是第一个使用大型语言模型生成定制驾驶视频的世界模型,它可以以用户友好的方式生成不常见的驾驶视频,并通过生成的视频提高驾驶感知方法的训练效果,视频生成质量超过其他最先进的方法,相对改进幅度达 30% 和 50%。
- 自动驾驶的世界模型:初步调查
在自动驾驶领域中,世界模型的能力是重要的,既可以确保安全性和效率性,还能关键性地帮助决策过程,通过合成和解释大量的传感器数据,从而预测潜在的未来情景并弥补信息缺失。本文回顾了自动驾驶领域中当前状态和世界模型的前景发展,包括其理论基础、实际应