介绍了一种通过结合无监督表示学习和强化学习来获得一般技能库的算法,可以处理原始感官输入(如图像),并使用后期目标重新标记方案来进一步提高其方法的样本效率,在实际机器人系统上获得了比之前的技术更好的效果。
Jul, 2018
本文提出了一种实用于实际机器人任务--如机器人操作--的深度强化学习算法,并在无人监督的情况下使用自我监督的基于模型的方法来训练预测模型,通过选择指定像素、目标图像或图像分类器作为目标设定方法,探索实现前所未见的任务和物体的普遍泛化。
Dec, 2018
通过将模型驱动控制与基于学习的感知相结合,本研究提出了一种适用于未知场景下机器人导航的方法,实验结果表明,相比于几何映射和终端学习方法,该方法在处理复杂环境下的目标到达更加可靠和高效。本方法不依赖于对环境的详细、明确的3D地图,适用于低帧率,且具有良好的仿真到真实世界的泛化性能。
Mar, 2019
本篇论文研究了如何通过自主互动学习动态距离,并使用它们来提供良好的奖励函数,以便无需人为设计奖励函数或目标示例,使用半监督学习方法在实际机器人和仿真环境中有效地执行复杂任务。
Jul, 2019
通过子目标生成和规划的分层视觉预见(HVF)框架,可以将任务分解成易于规划的片段,并自然地识别语义上有意义的状态作为子目标,在三个模拟的基于视觉的操作任务中,我们的方法实现了近200%的性能提升。
Sep, 2019
研究了机器人如何通过无监督学习和条件目标设定模型自主地学习和实践行为,从而掌握丰富的技能和处理不同的任务和环境。
Oct, 2019
该论文提出了一种基于自监督学习的学习动力学模型,该模型可用于任务规划和策略学习,避免了视觉控制任务中由于真实环境的复杂度超过模型容量所导致的训练效率低的问题。
Jul, 2020
提出了一种新的方法来学习依赖任务完成的未来动作序列预测的潜在世界模型,该模型适应地关注任务相关的动态学习,并同时充当稀疏奖励下计划的有效启发式方法,通过挑战性的视觉目标完成任务的评估,我们发现该方法较之前的无模型方法在性能上有了显著提高。
Dec, 2020
该研究提出了一种基于模型的离线RL算法,该算法可扩展应用于高维视觉观测空间,通过学习潜在状态动力学模型并在潜在空间中表示不确定性来克服图像观测的挑战,并在多项具有挑战性的基于图像的移动和操纵任务中取得了优异的表现。
本文提出了使用自回归进行离线机器人技能学习,并通过先前的数据学习环境的形式理解,该方法可以处理高维相机图像,可以学习到许多技能,并通过一系列技术进行训练,此方法具有较强的泛化能力,可以在多个目标之间进行目标链接,通过预训练或辅助目标学习到丰富的表示。
Apr, 2021