逆向动力学的后见之明政策延续
本文提出了一种名为 Hindsight Experience Replay 的新颖技术,它可以有效地学习来自于稀疏二元奖励的知识,避免了复杂奖励工程,并且可以与任意离线 RL 算法相结合,被视为一种隐式的课程。通过在三种不同的任务上进行实验,推动、滑动和拿取-放置,每个任务只使用指示任务是否完成的二元奖励,我们演示了该方法在操作机器人手臂上的实际应用。我们的消融研究表明,Hindsight Experience Replay 是训练在这些有挑战性的环境中成功的关键因素,并且我们展示了在物理仿真中训练的策略可以部署在物理机器人上,并成功地完成任务。
Jul, 2017
通过整合演示(demonstrations)的方法,本研究探讨如何加速强化学习的收敛速度,以达到能够到达任何目标的策略,并且在与其他模仿学习算法训练的代理相比表现更好。
Jun, 2019
本文介绍了逆强化学习(inverse RL),采用逆强化学习方法来实现目标重标记技术(goal-relabeling techniques),并证实在多任务设置下,包括目标达成、具有离散奖励集合和线性奖励函数的领域中,使用逆强化学习加速了学习过程。
Feb, 2020
研究介绍了一种数据高效的选项学习算法-后见之明离线选项(HO2),并证明其在现有基准测试中表现优异,结果强调了时间和操作抽象的重要性以及离线培训和信任区域约束,特别是在来自原始像素输入的具有挑战性的模拟3D机器人操作任务中。
Jul, 2020
通过利用环境动态生成虚拟实现目标的模型相关再标记方法, 本文提出了模型(MHER)。模型同时执行强化学习和监督学习来实现高效的政策改进,通过实验在多个基点任务和模拟机器人环境中显示出比以前的model-free和model-based多目标方法具有明显更高的样本效率。
Jul, 2021
本文从分歧最小化的角度解释了追溯目标重标记技术在多目标强化学习中的应用,将目标达成问题重新定义为模仿学习框架,并从该框架中推导出多种算法。实验结果表明,与行为克隆相比,Q-learning算法在追溯重标记技术下表现更优,但两者的普通组合会降低性能。此外,该论文还解释了奖励为(-1,0)明显优于(0,1)时的困惑现象。
Sep, 2022
本文介绍了一种基于“目标条件下的先验知识学习”(GCSL)算法的延伸方法TraIL,在原有算法基础之上,通过利用轨迹的信息来预测动作和目标子目标,从而使得智能体可以在更多的目标状态下取得更好的性能表现。
May, 2023
我们提出了一个多步骤过程,通过学习一个逆向的世界模型、生成目标达成的逆向轨迹、使用最短路径搜索算法改进这些序列,并通过模仿学习训练神经网络策略,肯定地回答了在强化学习中是否可以学习没有奖励的策略以及仅通过尝试达到目标状态是否可以学习策略的问题。在一个确定性迷宫环境中进行评估,其中观测是64×64像素鸟瞰图像,并且可以表明该方法始终达到多个目标。
Dec, 2023