采用逆序课程和正序课程相结合的方法,RFCL,在学习从示范中获得显著改进,并且能够解决过去无法解决的需要高精度和控制的任务。
May, 2024
本文提出了一种基于生成式反向动力学模型的行为克隆方法以解决自我学习表现不佳的问题,利用模型产生短期想象轨迹进行训练,提高了模型的健壮性和适应性。
Oct, 2022
利用演示可以显著提高模型学习效率,在这项工作中,我们确定了利用演示进行模型学习的关键因素,即策略预训练,有针对性的探索和演示数据的过采样,这三个阶段构成了我们的基于模型的 RL 框架。
Dec, 2022
本研究从经验重放和模型的角度出发,对 Deep Q-Network 算法中回放量的变化对样本效率和算法健壮性的影响进行了系统性研究,在 Mountain Car 环境下获得了提高样本效率、降低性能波动、提高算法鲁棒性的结果,为算法应用方面提供了新的思路。
Feb, 2023
借助物理先验形式的近似系统动力学模型,我们设计了一个课程方案来优化无模型策略优化算法。我们的课程策略在任何模型无关 RL 算法上都是通用的,并且其课程战略在物理上直观、易于调节,并允许加速培训,同时不影响模型无关 RL 算法的性能、灵活性和适用性。
Jun, 2018
本文提出了一种基于逆向强化学习的方法,用于训练机器人完成目标导向任务,该方法自动生成适应智能体表现的初始状态课程,即使面对目前最先进的强化学习方法无法解决的困难仿真导航和纤细操纵问题也可取得显著成果。
Jul, 2017
通过回溯模型和回溯的方式,可以在强化学习中发现更多高奖励状态,从而提高状态采样的效率。
Apr, 2018
我们提出了一个多步骤过程,通过学习一个逆向的世界模型、生成目标达成的逆向轨迹、使用最短路径搜索算法改进这些序列,并通过模仿学习训练神经网络策略,肯定地回答了在强化学习中是否可以学习没有奖励的策略以及仅通过尝试达到目标状态是否可以学习策略的问题。在一个确定性迷宫环境中进行评估,其中观测是 64×64 像素鸟瞰图像,并且可以表明该方法始终达到多个目标。
Dec, 2023
我们提出了一种新颖的技术 Back-stepping Experience Replay (BER),它与任意的离线策略强化学习算法兼容。BER 旨在增强具有近似可逆性的系统的学习效率,减少对复杂奖励塑造的需求。该方法通过后退传递来构建反向轨迹以达到随机或固定的目标,并通过在学习过程中重复经验的提炼来解决后退传递中的不准确性问题。我们将 BER 应用于无模型的强化学习方法,用于软蛇机器人的运动和导航,软蛇机器人能够通过身体与地面之间的非均质摩擦而实现曲线运动。此外,我们还开发了一个动态模拟器来评估 BER 算法的有效性和效率,其中机器人成功学习(达到 100% 的成功率),并能够迅速到达随机目标,速度比最佳基线方法快 48%。
Jan, 2024
通过训练一个模型来从已知的目标状态开始进行逆向预测,将强化学习中的目标函数引入到代理中,从而加速训练过程,并在 Gridworld 和汉诺塔游戏中进行了实验验证。
Mar, 2018