- 自动驾驶的世界模型:初步调查
在自动驾驶领域中,世界模型的能力是重要的,既可以确保安全性和效率性,还能关键性地帮助决策过程,通过合成和解释大量的传感器数据,从而预测潜在的未来情景并弥补信息缺失。本文回顾了自动驾驶领域中当前状态和世界模型的前景发展,包括其理论基础、实际应 - 大语言模型中的语义基础:理解人工智能
对于 LLMs 的研究表明它们具有语义基础和生成文本的意义理解能力,并且通过应用心灵哲学和语言的含义理论的核心假设,发现 LLMs 在功能性、社会性和因果性的语义基础中都呈现基本证据,并发展出世界模型。因此,LLMs 并非随机模仿者或语义僵 - Transformer 世界模型提供更佳的策略梯度吗?
使用 Actions World Models (AWMs) 解决传统 transformer world models 生成的迂回梯度路径问题,在长期视野任务中产生更好的策略。
- 建基于因果关系的环境模型对于具身人工智能的重要性
本研究论文探讨了给新一代具身代理建立基础世界模型的前景,并对其中的因果关系的重要性提出了新的观点,指出整合因果考虑对于实现与世界的有意义的物理交互至关重要。最后,我们澄清了这一背景下的误解并展望了未来的研究。
- 用简单世界模型预测未来
我们提出了一种正则化方案,简化了世界模型的潜在动态,使得动态软件状态的不变性更强、智能体行为的效果更可预测。通过结合三种不同的模型类别,我们发现该正则化方案能够提高准确性、泛化性和后续任务的性能。
- 增强连续强化学习中的世界模型回放
通过引入一种扩充缓冲区的方法来缓解记忆约束,将其与基于模型的强化学习算法结合使用,从而在持续学习中提高效果。我们在 Procgen 和 Atari RL 基准测试中评估了这种方法的有效性,并证明了在潜在世界模型的背景下,用于回放缓冲区的分布 - WorldDreamer:面向通用视频生成的世界模型预测屏蔽标记
WorldDreamer 是一个创新的全球模型,通过将视觉输入映射为离散标记并预测掩码标记,将世界建模作为无监督的视觉序列建模挑战,实现对一般世界物理和运动的全面理解,并在视频生成方面具有卓越的性能。
- 基于梯度的世界模型规划
人工智能中的持久挑战是控制系统以实现期望的行为。本研究介绍了一种基于梯度的规划方法,利用可微的世界模型,对比了其他基于 MPC 的方法和基于策略的算法,并在大多数任务中,在具有样本效率的设定下,实现了与其他方法相媲美甚至更好的性能。此外,引 - 通过策略引导的轨迹扩散实现的世界模型
我们提出了一种新的世界建模方法 PolyGRAD,它利用扩散模型和策略的动作分布梯度,通过一次传递生成整个在政策上的合成轨迹,该方法在竞争力预测错误率方面与最先进的自回归基线相当,并且使得能在 “虚拟中” 进行政策优化的性能表现良好。
- 语言模型、代理模型和世界模型:机器推理和规划之 LAW
我们提出了一个新的机器推理角度:LAW,连接了语言模型、代理模型和世界模型的概念,以增强其推理能力。我们将世界和代理模型视为更好的推理抽象,引入了人类推理的关键元素,包括对世界和其他代理的信念,后果的预测,目标 / 奖励和战略规划。在 LA - 通过最大化证据推断行动:从观察中无标签模仿的世界模型
通过最大化证据的行动推理(AIME)和世界模型,在不需要进一步训练或与环境在线交互的情况下,通过观察和模仿他人的行为实现零 - shot 模型的人工智能代理。
- ICLR利用离散表示进行连续强化学习
通过对离散表示法进行彻底的实证研究,我们发现,与传统连续表示法相比,在世界模型学习、无模型强化学习和连续强化学习问题中,将观测数据表示为分类值向量能更准确地模拟世界,并且使用离散表示法训练的智能体能够更好地学习策略和使用更少的数据,在连续强 - 通过离散扩散学习自主驾驶的无监督世界模型
通过将传感器观测结果进行标记化并使用离散扩散方法预测未来情况,我们提出了一种新的世界建模方法,可以显著改进学习点云观测的世界模型,并在自动驾驶等机器人应用中实现了超过 65%的 Chamfer 距离缩减(1s 预测)和超过 50%的 Cha - 多时间尺度世界模型
在这项工作中,我们提出了一种概率形式主义来学习多时间尺度世界模型,即 Multi Time Scale State Space (MTS3) 模型。我们的模型使用多时间尺度上的计算有效推理方案,以对未来数秒的高准确性和不确定性进行预测。我们 - 全球模型中集成新颖性检测的简单方法
我们提出了一种将新颖性检测引入世界模型强化学习代理中的直接边界方法,通过利用世界模型产生的虚拟状态与真实观察状态的不一致作为异常得分,有效探测并保护代理在新环境中的性能和可靠性。
- 从任务结构到世界模型:LLM (大型语言模型) 了解什么?
一种大型语言模型如何拥有知识的问题超出了特定人工智能系统的能力,并挑战了我们对知识和智能本质的假设。我们通过授予 LLMs “工具知识” 来回答这个问题,该知识由一定的能力定义。然后我们探讨这种知识与人类智能所展现的更为普通和 “世俗” 的 - 语言模型表示空间和时间
使用 Llama-2 模型,我们通过分析三个空间数据集(全球、美国、纽约地点)和三个时间数据集(历史人物、艺术品、新闻标题)中学到的表示来找到 LLMs 学习的证据,发现 LLMs 在多个尺度上学习了空间和时间的线性表示,表征对提示的变化具 - DriveDreamer:面向实际驱动的自动驾驶世界模型
DriveDreamer 是第一个从真实世界驾驶场景中建立的世界模型,通过使用扩散模型和两阶段训练流程,能够准确地生成高质量驾驶视频,并捕捉到真实世界交通场景的结构约束。
- 超越想象:通过世界模型最大化情节可达性
本文介绍了一种名为 GoBI(Go Beyond Imagination)的新型内在奖励设计,结合传统的终身新颖性动机和以步进可达性扩展为目标设计的情节内在奖励,通过应用学习到的世界模型生成具有随机动作的预测未来状态,从而给予那些在情节记忆 - 自主驾驶中基于世界模型的异常检测潜能探索
自动驾驶中的异常检测研究综述,重点介绍了如何利用世界模型及相关组件实现预测建模、稀疏奖励和复杂控制任务的突出结果。