Jul, 2020
目标感知预测:学习如何模拟重要因素
Goal-Aware Prediction: Learning to Model What Matters
TL;DR该论文提出了一种基于自监督学习的学习动力学模型,该模型可用于任务规划和策略学习,避免了视觉控制任务中由于真实环境的复杂度超过模型容量所导致的训练效率低的问题。
Abstract
learned dynamics models combined with both planning and policy learning algorithms have shown promise in enabling artificial agents to lea
发现论文,激发创造
利用预测状态表示关闭学习和规划循环
本文提出并演示了一种精确学习环境模型的新算法,该算法从行动-观测对的序列中直接学习此类环境的模型,并通过在学习的模型中进行规划并恢复一个接近原始环境的最优策略实现从观测到行动的闭环。
Dec, 2009
想象目标的视觉强化学习
介绍了一种通过结合无监督表示学习和强化学习来获得一般技能库的算法,可以处理原始感官输入(如图像),并使用后期目标重新标记方案来进一步提高其方法的样本效率,在实际机器人系统上获得了比之前的技术更好的效果。
Jul, 2018
想象价值梯度:基于模型的策略优化和可转移的潜在动态模型
本文研究如何通过模型驱动的增强学习方法促进任务转移,提出了基于动作条件的预测模型学习算法,用于机器人操作任务中的策略优化并在转移学习场景中取得了显著的学习速度提升。
Oct, 2019
使用逆动力学模型从像素规划
提出了一种新的方法来学习依赖任务完成的未来动作序列预测的潜在世界模型,该模型适应地关注任务相关的动态学习,并同时充当稀疏奖励下计划的有效启发式方法,通过挑战性的视觉目标完成任务的评估,我们发现该方法较之前的无模型方法在性能上有了显著提高。
Dec, 2020
基于模型的自监督功能距离视觉规划
本文介绍了一种使用自监督学习方法和动力学模型和距离函数相结合的视觉目标到达方法,可用于训练通用机器人执行多种任务,该方法不需要手动设计奖励函数,仅使用无标签数据进行学习,并表现出较高的性能。
Dec, 2020
MapGo: 面向目标任务的模型辅助策略优化
本文提出了一种名为FGI的新的重标记策略用于改善回报稀疏性问题,并通过引入动态模型来生成模拟轨迹来提高采样效率,提出了一种名为MapGo框架用于目标导向任务的模型辅助策略优化, 并在复杂任务上的实验证明了FGI策略相比后见策略的有效性,并且MapGo框架相对于无模型的基线表现出更高的采样效率。
May, 2021