提出了一种简单的指示器奖励函数,以解决在连续状态空间中使用强化学习训练策略时无法基于高维观测指定奖励函数的挑战;并提出奖励平衡和奖励过滤两种方法,以进一步加速使用指示器奖励函数的模型的收敛速度,并展示了在无需知道地面实况的情况下从 RGB-D 图像中执行绳索操作等复杂任务的性能表现与使用地面实况的神谕方法的可比性。
May, 2019
本文提出了用于从机器人的多次策略中恢复策略目标的新算法。该算法基于观察所观察到的代理程序沿梯度方向更新其策略参数的假设。
Jul, 2020
提出了一种基于奖励模型的框架,它使得机器学习代理能学习到语言指令, 并通过这些指令执行任务,而不需要通过修改环境奖励函数来实现。这种方法将任务的语义表示和执行分离,在简单的网格世界中,使代理能够学习一系列涉及块的交互和对空间关系的理解的指令, 且无需新的专家数据就可以适应环境的变化。
Jun, 2018
基于内部驱动的强化学习算法以目标状态和可控状态之间的相互信息为内在目标,在机器人操纵和导航任务中取得了明显的成果。
Feb, 2020
本文提出一种基于张量的模型,用于推断专家状态序列中未被观察到的动作,通过混合强化学习和模仿学习来优化智能体的策略,实证结果表明这种混合方法比一般的深度神经网络模型更具优势,并且在专家状态序列中表现出了抗扰动的特性。
Mar, 2019
使用回放数据引导的深度强化学习在稀疏奖励任务中往往表现不佳,本研究提出一种使用不同来源的杂乱视频进行一次性模仿学习的方法,在多个著名游戏中实现真人游戏水平以上的表现。
May, 2018
利用深度模型学习中间视觉表示的抽象能力来从少量的演示序列中快速推断知觉奖励函数,以便在真实世界环境中使用强化学习智能体执行任务。
Dec, 2016
本论文提出一种通过少量成功案例、以及主动请求用户进行标注来使机器人无需人工指定奖励函数以学习技能的方法,有效地避免了人工设计感知流水线或在环境中添加附加传感器等不便之处。我们通过实验验证了该方法的可行性,并证明该方法可使机器人从图像中直接学习知识,且仅需 1-4 个小时与实际世界进行交互。
Apr, 2019
本文提出了一种基于 Intrinsic motivation 的强化学习方法,其奖励函数被定义为智能体状态与周围状态之间的互信息,实现了比以前的方法更好的效果,包括在没有任何任务奖励的情况下首次完成了 pick-and-place 任务。
Mar, 2021
本文提出了一种基于轨迹反馈的强化学习算法,通过加强措施而无需为每个状态 - 动作对提供奖励,旨在处理现实世界的环境下反馈不及时的问题,同时,我们还分析了此算法的性能并提供优化 - 汤普森采样方法来处理未知转移模型的情况。
Aug, 2020