无需基准状态的强化学习
介绍了一种通过结合无监督表示学习和强化学习来获得一般技能库的算法,可以处理原始感官输入(如图像),并使用后期目标重新标记方案来进一步提高其方法的样本效率,在实际机器人系统上获得了比之前的技术更好的效果。
Jul, 2018
本论文提出一种通过少量成功案例、以及主动请求用户进行标注来使机器人无需人工指定奖励函数以学习技能的方法,有效地避免了人工设计感知流水线或在环境中添加附加传感器等不便之处。我们通过实验验证了该方法的可行性,并证明该方法可使机器人从图像中直接学习知识,且仅需1-4个小时与实际世界进行交互。
Apr, 2019
提出了一种基于模拟器状态信息用于面向多物体的机器人学习的方法:通过训练一对编码器网络来捕捉潜变量空间中的多物体状态信息,其中一个编码器是卷积神经网络,另一个是图神经网络状态编码器,这使得我们的系统能够操作现实世界中的RGB图像,有效地进行多物体操纵的强化学习训练,取得比传统基于图像或固定长度状态编码的方法更高的成功率,在不调参的情况下也在真实世界中表现良好,并且泛化到在训练时未见过的不同数量和类型的物体。
Sep, 2019
本文提出了一种结合规划方法和强化学习的方法,利用强化学习学习目标驱动策略,从而让规划方法更好地实现任务;同时利用一个潜在变量模型来简洁地表示规划中的有效状态,从而将行为抽象和状态抽象分离。实验结果表明本文提出的方法能够在机器人导航和操作任务中显著优于以往的规划和模型自由方法。
Nov, 2019
本文介绍了一种使用自监督学习方法和动力学模型和距离函数相结合的视觉目标到达方法,可用于训练通用机器人执行多种任务,该方法不需要手动设计奖励函数,仅使用无标签数据进行学习,并表现出较高的性能。
Dec, 2020
本文提出了一种基于目标分布的通用任务表征方法,通过该方法可以实现针对不同任务的灵活重用技能,并开发了一种离策略算法 (Distribution-Conditioned Reinforcement Learning, DisCo RL) 来高效地学习这些策略。在多种机器人操作任务上的实验表明,该方法显著优于先前的方法,尤其是需要对新目标分布进行泛化的任务。
Apr, 2021
提出一种名为MEDAL的新方法,它将反向策略训练成与提供的演示中的状态分布匹配,以使代理保持接近与任务相关的状态,从而为前向策略提供易于和困难的起始状态,而且在连续控制任务上匹配或优于先前的方法,同时做出比以前更少的假设。
May, 2022
该研究通过使用未标注的人类操作视频来学习机器人操作策略的任务不可知奖励函数,并采用时间对比学习得到的嵌入空间中的距离以及直接时间回归来评分从而实现在各种任务上重复使用一个模型,从而能够在多个操纵任务上加速训练,而无需从机器人环境中获得先验数据,也无需使用特定于任务的人类演示数据。
Nov, 2022
选择适当的环境表示对于强化学习代理的决策过程并不总是直观的,本研究考察了不同状态表示对于激励代理解决机器人任务的影响,结果显示使用数字状态的强化学习代理与非学习基线表现相当,而使用经过预训练环境嵌入向量的图像表示的代理表现更好,推测任务特定的知识对于实现收敛和高成功率的机器人控制是必要的。
Sep, 2023