提出了一种新的方法来学习依赖任务完成的未来动作序列预测的潜在世界模型,该模型适应地关注任务相关的动态学习,并同时充当稀疏奖励下计划的有效启发式方法,通过挑战性的视觉目标完成任务的评估,我们发现该方法较之前的无模型方法在性能上有了显著提高。
Dec, 2020
通过比较使用学习动力学模型进行规划和使用基准模拟器进行规划的性能,来澄清不同设计选择对学习动力学模型的作用,首先从 DeepMind 控制套件的 5 个域的训练序列收集了丰富的数据集,然后以监督方式训练前馈动态模型,并在不同的模型设计选择包括合成,随机性,多步培训和时间步选项时评估规划器性能。
Sep, 2021
本文研究了为什么像 PlaNet 这样的循环状态空间模型在布料操纵任务中失败,通过在拾放布料平整领域中应用 PlaNet,探讨了模糊的重建如何导致在潜在空间中直接进行规划变得困难,并通过采用 KL 平衡和潜在超调来调整训练损失和计划拾取位置,并将更新后的 PlaNet-Pick 模型应用于潜在 MPC 算法,在模拟中实现了最先进的性能。
Mar, 2023
本文提出了一种数据有效、基于模型的强化学习算法,通过使用像素信息直接学习闭环控制策略,实现了从像素到扭矩的端到端学习。该方法具有快速学习、高维状态空间可扩展、轻量级等优点,并且是解决在连续状态和动作下进行数据有效强化学习问题的重要步骤。
Oct, 2015
该论文提出了一种基于自监督学习的学习动力学模型,该模型可用于任务规划和策略学习,避免了视觉控制任务中由于真实环境的复杂度超过模型容量所导致的训练效率低的问题。
Jul, 2020
本研究解决了一个挑战性问题,即训练一个只使用像素信息来学习闭环控制的智能体。我们提出了一种数据高效且基于模型的增强学习算法,其中关键因素是一个深度动态模型,它使用深度自编码器来学习图像的低维嵌入,并结合在这个低维特征空间的预测模型来直接学习闭环策略。与现有的连续状态和动作的强化学习方法相比,我们的方法学习快速、可适应高维状态空间且可扩展性强,这是实现完全自主单从像素到扭矩的学习的重要一步。
Feb, 2015
本文介绍了一种使用深度学习与经典规划相结合的无监督架构 LatPlan,通过提供一组图像对作为训练输入和一对初始和目标状态图像作为规划输入,可以使规划过程在符号潜在空间中找到计划并返回可视化的计划执行。
Apr, 2017
我们提出了一个框架,旨在学习两个连续时间步骤中观察到的图像之间的基本动态。通过估计图像演化的中间阶段,我们的方法关注在保持图像的空间相关性的同时提供可解释性,并通过偏微分方程中表示的物理模型引入潜在动态学变量,确保了所学模型的可解释性并提供了相应图像动态的洞察力。通过对地球科学图像数据进行一系列数值测试,我们证明了我们学习框架的鲁棒性和有效性。
Oct, 2023
我们学习到一种能够关联可达状态的表示方法,通过学习多步逆动力学获得一个潜在表示,并将其转换为在 l2 空间中关联可达状态,这种方法可以显著提高采样效率,并实现层次化规划。
Nov, 2023
通过在一个学习好的世界模型的潜在空间 planning,我们引入了一种名叫 Director 的实用方法,直接从像素学习分层行为,无需手动指定目标空间或子任务,并在具有稀疏奖励的任务中表现超越了探索方法。
Jun, 2022