通过策略引导的轨迹扩散实现的世界模型
我们提出了一种使用扩散模型生成基于行为分布的整个轨迹,并通过目标策略引导将合成经验转移到更贴近目标策略的方法,以此代替真实数据进行离线强化学习,并在各种标准离线强化学习算法和环境中取得显著的性能改善。
Apr, 2024
人工智能中的持久挑战是控制系统以实现期望的行为。本研究介绍了一种基于梯度的规划方法,利用可微的世界模型,对比了其他基于 MPC 的方法和基于策略的算法,并在大多数任务中,在具有样本效率的设定下,实现了与其他方法相媲美甚至更好的性能。此外,引入了一种将策略网络和基于梯度的 MPC 相结合的混合模型,优于纯粹的基于策略的方法,这为在复杂的现实世界任务中基于梯度的规划与世界模型带来了希望。
Dec, 2023
我们提出了一种新的离线强化学习方法,利用引导扩散世界模型来直接评估离线目标策略,并进行一种重要性抽样的世界模型更新来使其与更新后的策略适应。在 D4RL 环境中的评估结果显示,在只有随机或中等专家示范的情况下,我们的方法相较于现有基线表现显著改进,从而需要改进世界模型与离线策略评估之间的对齐。
May, 2024
使用 Actions World Models (AWMs) 解决传统 transformer world models 生成的迂回梯度路径问题,在长期视野任务中产生更好的策略。
Feb, 2024
通过将传感器观测结果进行标记化并使用离散扩散方法预测未来情况,我们提出了一种新的世界建模方法,可以显著改进学习点云观测的世界模型,并在自动驾驶等机器人应用中实现了超过 65%的 Chamfer 距离缩减(1s 预测)和超过 50%的 Chamfer 距离缩减(3s 预测)。结果表明,对标记化的机器人经验进行离散扩散可以启用类似 GPT 的无监督学习方法,以提高机器人代理的性能。
Nov, 2023
使用生成式的递归神经网络以压缩时空特征的方式进行快速的非监督式学习,模拟了一些常见的强化学习环境。提取的环境模型特征被输入到简洁的进化训练策略中,取得了在各种环境中的最先进成果。最后,我们在由内部环境模型产生的环境中完全训练我们的智能体,并将这个策略转移到了实际环境中。
Sep, 2018
本研究旨在使用生成神经网络建立流行的强化学习环境下的世界模型,并利用该世界模型进行无监督学习,学习环境的空间和时间紧凑表示。通过使用从世界模型提取的特征作为代理输入,我们可以训练出非常紧凑和简单的策略来解决所需任务。我们甚至可以在代理自己的幻象梦境中完全进行训练,并将该策略传输回实际环境中。
Mar, 2018
我们介绍了 Diffusion World Model (DWM),它是一种条件扩散模型,能够同时预测多步未来状态和奖励。与传统的一步动力学模型相反,DWM 能够在单次前向传递中提供长期预测,消除了对递归查询的需求。我们将 DWM 集成到基于模型的值估计中,其中短期回报通过从 DWM 采样的未来轨迹进行模拟。在离线强化学习的背景下,DWM 可以被视为通过生成建模进行保守值正则化,或者可以被看作是一个使离线 Q 学习能够利用合成数据的数据源。我们在 D4RL 数据集上的实验验证了 DWM 对于长期模拟的稳健性。在绝对性能方面,DWM 显著超过了一步动力学模型,获得了 44%的性能提升,并实现了最先进的性能。
Feb, 2024
本文通过扩展动力学模型,利用扩散概率模型去掉了传统轨迹优化方法的瓶颈,将采样和计划步骤近乎完全融合,通过分类器和图像插值获得了在线规划策略,并在长期决策和测试时间灵活性强的控制环境中成功应用了该框架。
May, 2022
本文研究如何通过模型驱动的增强学习方法促进任务转移,提出了基于动作条件的预测模型学习算法,用于机器人操作任务中的策略优化并在转移学习场景中取得了显著的学习速度提升。
Oct, 2019