提出了一种新的方法来学习依赖任务完成的未来动作序列预测的潜在世界模型,该模型适应地关注任务相关的动态学习,并同时充当稀疏奖励下计划的有效启发式方法,通过挑战性的视觉目标完成任务的评估,我们发现该方法较之前的无模型方法在性能上有了显著提高。
Dec, 2020
通过比较使用学习动力学模型进行规划和使用基准模拟器进行规划的性能,来澄清不同设计选择对学习动力学模型的作用,首先从 DeepMind 控制套件的 5 个域的训练序列收集了丰富的数据集,然后以监督方式训练前馈动态模型,并在不同的模型设计选择包括合成,随机性,多步培训和时间步选项时评估规划器性能。
Sep, 2021
本文介绍了一种使用自监督学习方法和动力学模型和距离函数相结合的视觉目标到达方法,可用于训练通用机器人执行多种任务,该方法不需要手动设计奖励函数,仅使用无标签数据进行学习,并表现出较高的性能。
该论文提出了一种用于强化学习中学习动态全局模型的方法,通过将学习全局动态模型的任务分解为学习本地动态的上下文潜向量和条件预测下一个状态来实现此目的,并通过鼓励上下文潜向量在预测正向和反向动态方面有用来编码动态特定信息。该方法在各种模拟机器人控制任务中实现了优异的泛化能力,超过了现有的强化学习方案。
May, 2020
本文提出了一种基于模块化架构的学车任务分解方法,在障碍感知、目标预测和规划方面均取得了优秀的方法,并在 CARLA 模拟器上实现了最新的优秀结果。
Dec, 2022
通过学习通用的动力学先验以及使用物理视频进行预训练和微调,我们提出了一种加速政策学习和改进表现的基于模型的深度强化学习方法,同时也实现了更有效的环境迁移。
May, 2019
本文介绍了一种通过 Local Dynamics Model 和无模型策略学习相结合的方式有效地学习状态转移函数从而能够解决一步先见规划的复杂操纵任务的方法,并在模拟中展示了本方法的优越性。
Jun, 2022
通过图像学习环境动态、通过快速在线规划选择动作,利用深度计划网络(PlaNet)解决了连续控制任务中的挑战,同时使用的强度模型相对较少。
Nov, 2018
通过基于贝叶斯优化的主动学习框架以及最优控制方案,采用特定任务方法,使用局部线性动态模型来设计给定任务的控制器,并通过对物理系统的实验来迭代地更新模型,最终在四旋翼实验台上进行仿真和实验,验证了该方法的有效性。
Mar, 2017
本研究提出了一种基于模型的强化学习算法,将以前任务的先验知识与在线动态模型适应相结合,实现了高效学习,并且成功地应用于各种复杂机器人操纵任务。
Sep, 2015